목록python/pandas (19)
sein-choi 님의 블로그
✅이상치 : 다른 자료와는 극단적으로 다른 값 백분율에 기반한 IQR로 이상치를 탐지할 수 있다 사분범위 : IQR (Interquartile Range) IQR (Interquartile Range, 사분위수 범위) : 제1사분위수(Q1)와 제3사분위수(Q3) 사이의 범위로, 상자 부분이다 이는 데이터의 중간 50%를 나타낸다중앙값(Median) : 데이터의 중앙값을 나타내며, 상자 내부의 가로선으로 표시된다Q1 (제1사분위수) : 데이터의 하위 25% 지점으로 상자의 왼쪽 경계이다Q3 (제3사분위수): 데이터의 상위 25% 지점으로 상자의 오른쪽 경계이다최소값(Minimum ): IQR의 1.5배 아래에 있는 데이터 지점으로 상자의 왼쪽 수염을 통해 표시된다최대값(Maximum) : IQR의 1.5배..
pandas 공식문서 활용법!모르는 함수가 나오면 인풋 아웃풋 보기- 필수 인자(전달값), 선택 인자, default 값, 반화값과 반환값의 데이터타입을 확인하기예제 코드 똑같이 타이핑 해보면서 인자 변경해보기 리스트와 시리즈의 차이점 인덱스 타입데이터 타입리스트숫자만여러 데이터 타입 공존 가능하다시리즈숫자와 문자하나의 데이터 타입만 존재할 수 있다 Series 생성하기 : pd.Series() data_1 = [1, 2, 3, 4, 5]pd.Series(data_1) Dataframe 생성하기 : pd.DataFrame()pd.DataFrame(data_1) ✅요약/통계정보 확인하기 :head, tail, info, describe, size, shape, unique, count, mean, va..
데이터프레임의 결측치 처리와 중복 제거, 피벗테이블 데이터프레임 생성하기import pandas as pdimport numpy as npdata = { '이름': ['철수', '영희', '민수', '지영', '영희', '철수', '철수', np.nan, '민수', '영희'], '학년': [1, 2, 3, 4, 2, 1, np.nan, 4, 3, np.nan], '국어': [90, 85, 92, 78, 85, 90, 90, 78, 92, 85], '수학': [88, 79, 94, 83, 79, 88, 88, 83, 94, np.nan], '영어': [82, 91, 85, 87, 91, 82, 82, 87, np.nan, 91] } ..
import pandas as pdimport seaborn as sns # seaborn 라이브러리에서 제공하는 데이터 불러오기위해서 사용 data = sns.load_dataset('tips')data ✅데이터 저장하기 data.to_csv('파일경로/파일명.확장자') 🔶현재 위치에서 tips_data.csv 파일 저장하기data.to_csv('tips_data.csv') 🔶temp 폴더에 tips_data.csv 파일 저장하기data.to_csv('temp/tips_data.csv') ✅데이터 불러오기pd.read_csv('파일경로/파일명.확장자')df = pd.read_csv('tips_data.csv')df 🔶Unnamed 컬럼이 존재하는 이유데이터를 저장하거나 불러올 때 별도로 인덱스..
pandas란?python에서 데이터를 조작하고 쉽게 분석할 수 있게 도와 주는 라이브러리- 대용량 데이터 처리가 가능하다- 데이터를 쉽게 가공할 수 있다- 데이터 시각화 기능을 제공한다 pandas에서 사용되는 대표적인 데이터 오브젝트 : 시리즈(Series)와 데이터프레임(DateFrame) 인덱스 : 데이터의 각 항목을 식별하는 것을 도와주는 목록인덱스는 각 행마다 부여되고, 시리즈 or 데이터프레임에서 특정 정보를 찾고자 할 때 사용한다
데이터프레임의 결합 데이터프레임 생성하기import pandas as pddf1 = pd.DataFrame({'A' : [1, 2], 'B' : [3, 4]})df2 = pd.DataFrame({'A' : ['ㄱ', 'ㄴ'], 'B' : ['ㄷ', 'ㄹ']})display(df1)display(df2) ✅데이터를 행 방향으로 연결 : concat([df1, df2...], axis = 0)컬럼의 이름이 동일해야 합쳐진다concat_row = pd.concat([df1, df2], axis = 0)concat_row ✅데이터를 방향으로 연결 : concat([df1, df2...], axis = 1) 인덱스가 동일한 형태로 존재해야한다동일한 이름의 컬럼을 사용하지않아야한다concat_col = pd.co..