목록python (76)
sein-choi 님의 블로그
고정된 테스트 데이터를 사용하여 모델을 평가할 때, 과적합의 위험이 존재한다.데이터 편향 : 고정된 테스트 데이터가 특정 패턴을 많이 포함할 경우, 모델이 그 패턴을 과도하게 학습할 수 있다.일반화 오류 : 고정된 테스트 데이터는 전체 데이터의 대표성을 충분히 가지지 않을 수 있어, 실제 데이터 분포와 차이가 생길 수 있다.모델 평가의 불안정성 : 하나의 테스트 데이터셋에 의존하면, 모델의 성능 평가가 불안정할 수 있으며, 다른 테스트 데이터에서 성능이 크게 달라질 수 있다.이를 보완할 수 있는 교차검증(Cross Validation) 교차검증(Cross Validation)이란 데이터 셋을 여러 개의 하위 집합으로 나누어 돌아가면서 검증 데이터로 사용하는 방법이다.✅K-Fold Validationtra..
Kaggle 타이타닉 예측 대회타이타닉 생존 예측 모델 만들기1. 필요한 라이브러리 불러오기import pandas as pd # 데이터 조작 및 분석을 위해 사용import numpy as np # 수치 계산을 위해 사용import matplotlib.pyplot as plt # 데이터 시각화를 위해 사용import seaborn as sns # 데이터 시각화를 위해 사용2. train / test 데이터 분리 및 데이터 불러오기캐글에서는 train과 test 데이터를 각각 제공하여 따로 분리할 필요가 없다train_df = pd.read_csv('C:/Users/sein4/Documents/pandas/titanic/train.csv')test_df = pd.read_csv('C:/Users/sei..
✅과적합 국소적인 문제를 해결하는 것에 집중한 나머지 일반적인 문제를 해결하지 못하는 현상을 과대적합 이슈라 한다. 즉, 과대적합(Overfitting)이란 데이터를 너무 과도하게 학습한 나머지 해당 문제만 잘 맞추고 새로운 데이터를 제대로 예측 혹은 분류하지 못하는 현상을 말한다. 🔸과적한 이해를 위한 예시더보기우리가 수능을 준비한다는 가정을 해보면 3월 모의고사만 열심히 풀고 수능을 본다면 점수가 어떻게 될까요? 3월 모의고사는 고3 수업 과정을 포함하지 않기 때문에 수능에서 좋은 점수를 받긴 어려울 것이다. 수능을 잘보고 싶다면 6월 9월 모의고사도 열심히 풀고 다른 문제집도 풀어야지 좋은 성적을 받을 수 있을 것이다.모형이 지나치게 복잡할 때 : 과대 적합이 될 수 있다.모형이 지나치게 단순할..
✅스케일링(Scaling)데이터의 값의 범위를 조정하여 각 데이터 특징(feature)들이 동일한 척도를 가지도록 변환하는 과정을 의미한다.척도 : 데이터를 측정하고 평가하는 기준이나 단위를 의미 🔶표준화(Standardization)각 데이터에 평균을 빼고 표준편차를 나누어 평균을 0 표준편차를 1로 조정하는 방법이다이는 z-score를 구하는 것과 동일하다. z-score은 데이터 포인트가 평균에서 얼마나 떨어져 있는지를 표준 편차 단위로 나타낸 값이다더보기표준화 수식 예시)1, 2, 3, 4, 5 라는 데이터가 있을 때평균은 3, 표준편차는 √2 = 1.414...1을 표준화하면 (1-3) / 1.414.. = 약 1.412 = -0.713 = 04 = 0.715 = 1.41🔸사용함수 skle..
✅인코딩(Encoding)데이터나 정보를 특정 형식으로 변환하는 과정을 의미한다.머신러닝 모델은 주로 숫자를 기반으로 학습한다. 🔶레이블 인코딩(Label Encoding) 문자열 범주형 값을 고유한 숫자로 할당한다모델이 처리하기 쉬운 수치형 데이터로 변환한다.순서 간 크기에 의미가 부여되므로, 명목형 변수에 적용할 때는 주의가 필요하다.에시)1등급 → 02등급 → 13등급 → 2더보기레이블 인코딩에서 중요한 것은 각 값의 상대적인 위치로, 순서의 높고 낮음은 큰 의미가 없다. 중요한 것은 값들이 어떤 순서로 배열되어 있는지가 중요하다. 즉, 중요한 것은 값들의 방향성이다. 1등급 = 0, 2등급 = 1, 3등급 = 21등급 = 2, 2등급 = 1, 3등급 = 0레이블 인코딩 시 두 인코딩 결과의 의..
✅결측치(Missing Value)존재하지 않는 데이터# 타이타닉 데이터를 통해 결측치 대처titanic_df = pd.read_csv('C:/Users/sein4/Documents/pandas/titanic/train.csv') 🔸 결측치 처리 방법 수치형 데이터 평균 값 대치 : 대표적인 대치 방법중앙값 대치: 데이터에 이상치가 많아 평균 값이 대표성이 없다면 중앙 값을 이용범주형 데이터최빈값 대치🔸사용 함수 간단한 삭제 & 대치df.dropna(axis = 0) : 행 삭제df.dropna(axis = 1) : 열 삭제Boolean Indexingdf.fillna(value) : 특정 값으로 대치(평균, 중앙, 최빈값)알고리즘을 이용sklearn.impute.SimpleImputer : 평균..