목록python/pandas (19)
sein-choi 님의 블로그
결측치와 중복값 ✅결측치데이터 누락 즉, 데이터가 존재해야하는데 값이 입력되지 않은 경우를 의미 python에서 결측치 : None, np.nan- None : 일반적인 형태의 결측치- np.nan : 넘파이(Numpy)라이브러리에서 사용되는 값으로 부동 소수점 형태의 결측치를 나타냄 시리즈 생성하기import pandas as pddata = [10, 20, None, 40, 50, None, 50, 40, 30]index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i']series = pd.Series(data, index = index)series ✅결측치 제거 : dropna( )dropna_series = series.dropna()dropna_series ✅..
데이터 변환 시리즈 생성하기import pandas as pddata = [1,2,3,4,5]series = pd.Series(data) ✅시리즈에 함수를 적용하는 메서드 : apply( )각 요소에 사용자 정의 함수, 내장 함수를 적용할 수 있다시리즈의 각 요소에 특정 연산 or 복잡한 연산을 적용할 떄 사용한다def custom_def (x): if x >= 3: result = x + 1 else: result = x - 1 return resultresult_series = series.apply(custom_def)result_series tip!apply( ) 함수는 시리즈 내의 각 요소에 함수를 적용하여 반환된 결과를 새로운 시리즈로 반환한다사용자 정..
시리즈 정렬과 순위 시리즈 생성하기import pandas as pddata = [20, 30, 10, 50, 40]index = ['a', 'b', 'c', 'd', 'e']series = pd.Series(data, index = index, name = 'new_series') ✅값을 기준으로 정렬하기 : sort_values( )Series.sort_values(ascending = True, inplace = False, na_position = 'last') 🔶sort_values 함수의 파라미터 ascending - 요소 정렬 순서 결정기본값은 Trueascending = True :오름차순ascending = False = 내림차순 inplace - 데이터 저장 방법기본값은 Falsein..
시리즈 데이터 접근 시리즈 생성하기import pandas as pddata = [20, 30, 10, 50, 40]index = ['a', 'b', 'c', 'd', 'e']series = pd.Series(data, index = index, name = 'new_series')series ✅대괄호를 이용한 인덱싱특정 요소 or 일부 요소를 선택하는 방법index_b = series['b']index_three = series[3]print('인덱스 b의 값', index_b)print('인덱스 3번째의 값', index_three) 인덱싱 종류정수 : 시리즈가 생성될 때 자동으로 생성되는 순처적인 인덱스로 정수를 사용해서 해당 위치의 값을 선택라벨 : 시리즈 생성시 지정하는 각 요소의 이름으로 라벨..
시리즈 연산 시리즈 생성하기data1 = [10, 20, 30, 40]data2 = [5, 15, 25, 35]series1 = pd.Series(data1)series2 = pd.Series(data2) ✅시리즈간의 연산result1 = series1 + series2result2 = series1 - series2 result3 = series1 * series2 result4 = series1 / series2 print(result1)print(result2)print(result3)print(result4)연산은 요소별로 이루어진다첫번째 요소는 첫번째 요소끼리, 두번째 요소는 두번째 요소끼리 ✅시리즈에 상수 값 연산result1 = series1 + 1result2 = series1 - 1 r..
pandas의 속성과 매소드 시리즈 생성하기data = [1, 2, 3, 4]index = ['A', 'B', 'C', 'D']series = pd.Series(data, name = 'name_series', dtype='float', index = index) ✅시리즈의 값series.values넘파이(numpy) 배열로 변환하여 넘파이(numpy)의 기능을 활용할 수 있다 ✅시리즈의 인덱스 확인series.index ✅시리즈의 이름 확인series.name ✅시리즈의 이름 변경series.name = 'new_name'series.name ✅시리즈의 타입 확인series.dtype ✅시리즈의 타입 변경series = series.astype('int')series.dtypeastype() 메서드를 ..