목록python/ML (27)
sein-choi 님의 블로그
✅과적합 국소적인 문제를 해결하는 것에 집중한 나머지 일반적인 문제를 해결하지 못하는 현상을 과대적합 이슈라 한다. 즉, 과대적합(Overfitting)이란 데이터를 너무 과도하게 학습한 나머지 해당 문제만 잘 맞추고 새로운 데이터를 제대로 예측 혹은 분류하지 못하는 현상을 말한다. 🔸과적한 이해를 위한 예시더보기우리가 수능을 준비한다는 가정을 해보면 3월 모의고사만 열심히 풀고 수능을 본다면 점수가 어떻게 될까요? 3월 모의고사는 고3 수업 과정을 포함하지 않기 때문에 수능에서 좋은 점수를 받긴 어려울 것이다. 수능을 잘보고 싶다면 6월 9월 모의고사도 열심히 풀고 다른 문제집도 풀어야지 좋은 성적을 받을 수 있을 것이다.모형이 지나치게 복잡할 때 : 과대 적합이 될 수 있다.모형이 지나치게 단순할..
✅스케일링(Scaling)데이터의 값의 범위를 조정하여 각 데이터 특징(feature)들이 동일한 척도를 가지도록 변환하는 과정을 의미한다.척도 : 데이터를 측정하고 평가하는 기준이나 단위를 의미 🔶표준화(Standardization)각 데이터에 평균을 빼고 표준편차를 나누어 평균을 0 표준편차를 1로 조정하는 방법이다이는 z-score를 구하는 것과 동일하다. z-score은 데이터 포인트가 평균에서 얼마나 떨어져 있는지를 표준 편차 단위로 나타낸 값이다더보기표준화 수식 예시)1, 2, 3, 4, 5 라는 데이터가 있을 때평균은 3, 표준편차는 √2 = 1.414...1을 표준화하면 (1-3) / 1.414.. = 약 1.412 = -0.713 = 04 = 0.715 = 1.41🔸사용함수 skle..
✅인코딩(Encoding)데이터나 정보를 특정 형식으로 변환하는 과정을 의미한다.머신러닝 모델은 주로 숫자를 기반으로 학습한다. 🔶레이블 인코딩(Label Encoding) 문자열 범주형 값을 고유한 숫자로 할당한다모델이 처리하기 쉬운 수치형 데이터로 변환한다.순서 간 크기에 의미가 부여되므로, 명목형 변수에 적용할 때는 주의가 필요하다.에시)1등급 → 02등급 → 13등급 → 2더보기레이블 인코딩에서 중요한 것은 각 값의 상대적인 위치로, 순서의 높고 낮음은 큰 의미가 없다. 중요한 것은 값들이 어떤 순서로 배열되어 있는지가 중요하다. 즉, 중요한 것은 값들의 방향성이다. 1등급 = 0, 2등급 = 1, 3등급 = 21등급 = 2, 2등급 = 1, 3등급 = 0레이블 인코딩 시 두 인코딩 결과의 의..
✅결측치(Missing Value)존재하지 않는 데이터# 타이타닉 데이터를 통해 결측치 대처titanic_df = pd.read_csv('C:/Users/sein4/Documents/pandas/titanic/train.csv') 🔸 결측치 처리 방법 수치형 데이터 평균 값 대치 : 대표적인 대치 방법중앙값 대치: 데이터에 이상치가 많아 평균 값이 대표성이 없다면 중앙 값을 이용범주형 데이터최빈값 대치🔸사용 함수 간단한 삭제 & 대치df.dropna(axis = 0) : 행 삭제df.dropna(axis = 1) : 열 삭제Boolean Indexingdf.fillna(value) : 특정 값으로 대치(평균, 중앙, 최빈값)알고리즘을 이용sklearn.impute.SimpleImputer : 평균..
✅이상치(Outlier)보통 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 혹은 큰 값# total_bill을 통해 이상치 탐지import numpy as npimport pandas as pd 🔸Extreme Studentized Deviation(ESD) 이용한 이상치 발견데이터가 정규분포를 따른다고 가정할 때, 평균에서 표준편차의 3배 이상 떨어진 값ESD 사용이 제한되는 상황데이터가 크게 비대칭일 때 ( → Log변환 등을 노려볼 수 있음)샘플 크기가 작을 경우 ESD를 이용한 처리 mean = np.mean(tips_df['total_bill'])std = np.std(tips_df['total_bill'])upper_limit = mean + std*3lower_limit = mean +..
✅예측모델링 프로세스✅데이터 수집🔸데이터 수집에 따른 프로세스 🔸실제 데이터 수집회사 내 데이터가 존재한다면SQL 혹은 Python 을 통해 데이터 마트를 생성회사 내 Data가 없다면 → 데이터 수집 필요방법1: CSV, EXCEL 파일 다운로드 (예제 데이터 다운로드)방법2: API를 이용한 데이터 수집공공데이터포털 - API 사용 목록(data.go.kr)방법3: Data Crawling (추후에 정리할 예정)더보기API (application programming interface) : 두 소프트웨어 시스템이 서로 소통하고 데이터를 교환할 수 있도록 하는 규격화된 인터페이스 것 API의 주요 개념:의사소통 방식: API는 클라이언트와 서버 사이의 요청과 응답을 통해 동작한다. 클라이언트가 ..