목록python (76)
sein-choi 님의 블로그
✅titanic 데이터셋을 이용해서 실습 진행Kaggle 타이타닉 예측 대회import sklearn as sklearnimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snstitanic_df = pd.read_csv('C:/Users/sein4/Documents/pandas/titanic/train.csv', encoding = 'utf-8')titanic_df.head()🔸titanic 컬럼 설명PassengerId: 승객 식별자(Primary Key)Survival : 사망(0) 생존(1)Pclass : 티켓 등급(1,2,3 등급)Name : 이름Sex : 성별Age : 나이SibSp : 승객..
✅정확도(Accuracy) 분류 모델의 성능을 평가하는 지표 중 하나이다모델이 올바르게 예측한 데이터 포인트의 비율을 나타내며, 전체 데이터 포인트 중 맞게 예측한 비율을 계산한다 정확도(Accuracy) = 정확히 예측한 데이터 포인트 수 / 전체 데이터 포인트 수 🔸정확도의 한계상황병원에 암을 예측하는 진단 소프트웨어를 개발 해달라는 요청을 받고 납품하는 상황모든 환자를 정상이라고 판정하는 “암 예측 모델”을 만들었다면? 암 예측 모델 : 무조건 환자가 음성(정상인)이라고 판정100명의 환자 입실, 95명은 음성(정상), 5명은 양성(암 환자)위에 따르면 암 예측 모델의 정확도는 95% 모든 환자를 음성으로 판정하는 모델은 정확도는 높지만, 실제 양성(암 환자)를 제대로 찾아내지 못하는 문제가 있다..
Kaggle 타이타닉 예측 대회목표 : 타이타닉 승객의 생존 여부 예측 (생존 : 1, 사망 : 0)데이터 분석 : 승객의 다양한 정보를 활용하여 생존 확률을 계산모델 예측 : 생존 확률을 바탕으로 승객의 생존 여부를 분류타이타닉 승객의 생존 여부를 예측하는 모델을 만들어보려고 한다 이전 시간에 배운 선형 회귀는 숫자를 예측하는 데 적합하지만, 타이타닉 승객의 생존 여부는 0과 1, 즉 생존과 사망으로 구분되기 때문에 선형 회귀를 사용할 수 없다 이러한 분류 문제를 해결하기 위해 로지스틱 회귀를 사용해야 한다일반적으로 데이터 분석에서는 선형 회귀를 많이 사용하지만, 생존 여부와 같은 '예/아니오'로 나타낼 수 있는 분류 문제에서는 로지스틱 회귀가 더 적합하다 그렇다면 로지스틱 회귀란 무엇인지 알아보자 ✅..
✅데이터의 유형수치형 데이터연속형 데이터 : 두 개의 값이 무한한 개수로 나누어진 데이터즉, 50과 51 사이에는 무한한 수가 존재한다ex) 키, 몸무게이산형 데이터 : 두 개의 값이 유한한 개수로 나누어진 데이터즉, 50과 52 사이에는 51(유한한 수)이 존재한다ex) 주사위 눈, 나이 🔸범주형 데이터순서형 자료 : 자료의 순서 의미가 있음ex) 학점,등급명목형 자료 : 자료의 순서 의미가 없음ex) 혈액형, 성별이전 시간에 tips 데이터셋에서 total_bill이 높으면 tip도 높을 것이라는 가정을 세우고 선형회귀를 시도하였으나 모델의 성능이 기대에 미치지 못했다 그래서 이번에는 sex 카테고리를 추가하여 모델의 성능을 향상시키고자 한다 위와 같이 2개 이상의 독립변수와 종속변수 간의 관계를 ..
import sklearn as sklearnimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snstips_df = sns.load_dataset('tips')컬럼 설명컬럼 설명데이터 유형total_bill총 청구 금액(팁을 포함하지 않은 금액)float64 tip팁 금액float64sex고객의 성별categorysmoker고객의 흡연 여부categoryday요일categorytime식사 시간categorysize식사 인원 수init64 ✅가정 : total_bill이 높은면 tip도 높을 것이다 즉, 고객이 청구하는 금액이 많을 수록 팁도 많이 줄것이다 🔸선형회귀 클래스 불러오기model_tips..
선형회귀는 변수들 사이의 관계를 이해하고 예측하는 데 도움을 주는 통계적 방법이다독립변수와 종속변수 간의 관계를 가장 잘 나타내는 직선을 찾는 과정이다새로운 데이터에 대해 값을 예측하는 모델이다✅선형회귀 활용 시기작은 데이터 셋에서도 효과적이다모델이 복잡하지 않아 시간과 자원을 아낄 수 있는 모델이다데이터의 패턴을 이해하고 설명하는 것이 중요할 때 (모델 해석이 중요할 때)선형 관계가 강한 데이터에 적합하다✅한계점비선형 관계에 대해 제한적이다 : 선형 회귀는 데이터가 직선 형태로 분포되어 있다고 가정한다 따라서 곡선 형태처럼 비선형적인 관계를 가진 데이터에는 적합하지 않아 예측 성능이 떨어질 수 있다.복잡한 패턴에 대한 설명력이 부족하다 : 선형 회귀는 간단한 선형 관계만을 모델링하기 때문에 데이터에 존..