목록python (76)
sein-choi 님의 블로그
✅이상치(Outlier)보통 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 혹은 큰 값# total_bill을 통해 이상치 탐지import numpy as npimport pandas as pd 🔸Extreme Studentized Deviation(ESD) 이용한 이상치 발견데이터가 정규분포를 따른다고 가정할 때, 평균에서 표준편차의 3배 이상 떨어진 값ESD 사용이 제한되는 상황데이터가 크게 비대칭일 때 ( → Log변환 등을 노려볼 수 있음)샘플 크기가 작을 경우 ESD를 이용한 처리 mean = np.mean(tips_df['total_bill'])std = np.std(tips_df['total_bill'])upper_limit = mean + std*3lower_limit = mean +..
✅예측모델링 프로세스✅데이터 수집🔸데이터 수집에 따른 프로세스 🔸실제 데이터 수집회사 내 데이터가 존재한다면SQL 혹은 Python 을 통해 데이터 마트를 생성회사 내 Data가 없다면 → 데이터 수집 필요방법1: CSV, EXCEL 파일 다운로드 (예제 데이터 다운로드)방법2: API를 이용한 데이터 수집공공데이터포털 - API 사용 목록(data.go.kr)방법3: Data Crawling (추후에 정리할 예정)더보기API (application programming interface) : 두 소프트웨어 시스템이 서로 소통하고 데이터를 교환할 수 있도록 하는 규격화된 인터페이스 것 API의 주요 개념:의사소통 방식: API는 클라이언트와 서버 사이의 요청과 응답을 통해 동작한다. 클라이언트가 ..
import pandas as pdimport matplotlib.pyplot as plt✅라인그래프 데이터 간의 연속적인 관계를 시각화하는 데에 적합하다.주로 시간의 흐름에 따른 데이터의 변화,추세를 보여줄 때 효과적이다import seaborn as snsdata = sns.load_dataset('flights') data# 연도별 승객 수를 그룹화하여 총합을 구하기data_group= data[['year', 'passengers']].groupby(by='year').sum().reset_index()plt.plot(data_group['year'], data_group['passengers'])plt.xlabel('year')plt.ylabel('passengers')plt.show()# Fi..
✅데이터 시각화의 목적1️⃣패턴 발견 및 이해데이터 내의 숨겨진 패턴을 발견하고, 이해하는 데 도움을 준다.그래프나 차트를 통해 데이터의 특징을 시각적으로 파악할 수 있다.더보기시간에 따른 매출 추이 분석:시간(월, 분기, 연도 등)에 따른 매출 추이를 선 그래프로 시각화하면, 매출의 계절적 변동이나 특정 시기의 매출 증감 패턴을 쉽게 파악할 수 있다. 이를 통해 특정 시기에 매출이 감소하는 이유나 증가하는 이유를 이해할 수 있다.지역별 매출 비교 분석:지도를 이용하여 지역별 매출을 시각화하면, 각 지역의 매출 패턴을 파악할 수 있다. 지역 간의 매출 차이나 특정 지역에서의 매출 높은 이유를 이해할 수 있다.제품 카테고리별 매출 분석:막대 그래프나 원형 차트를 사용하여 제품 카테고리별 매출을 시각화하면,..
✅이상치 : 다른 자료와는 극단적으로 다른 값 백분율에 기반한 IQR로 이상치를 탐지할 수 있다 사분범위 : IQR (Interquartile Range) IQR (Interquartile Range, 사분위수 범위) : 제1사분위수(Q1)와 제3사분위수(Q3) 사이의 범위로, 상자 부분이다 이는 데이터의 중간 50%를 나타낸다중앙값(Median) : 데이터의 중앙값을 나타내며, 상자 내부의 가로선으로 표시된다Q1 (제1사분위수) : 데이터의 하위 25% 지점으로 상자의 왼쪽 경계이다Q3 (제3사분위수): 데이터의 상위 25% 지점으로 상자의 오른쪽 경계이다최소값(Minimum ): IQR의 1.5배 아래에 있는 데이터 지점으로 상자의 왼쪽 수염을 통해 표시된다최대값(Maximum) : IQR의 1.5배..
pandas 공식문서 활용법!모르는 함수가 나오면 인풋 아웃풋 보기- 필수 인자(전달값), 선택 인자, default 값, 반화값과 반환값의 데이터타입을 확인하기예제 코드 똑같이 타이핑 해보면서 인자 변경해보기 리스트와 시리즈의 차이점 인덱스 타입데이터 타입리스트숫자만여러 데이터 타입 공존 가능하다시리즈숫자와 문자하나의 데이터 타입만 존재할 수 있다 Series 생성하기 : pd.Series() data_1 = [1, 2, 3, 4, 5]pd.Series(data_1) Dataframe 생성하기 : pd.DataFrame()pd.DataFrame(data_1) ✅요약/통계정보 확인하기 :head, tail, info, describe, size, shape, unique, count, mean, va..