목록python (76)
sein-choi 님의 블로그
✅threshold 조절threshold 조절은 분류 모델에서 특정 클래스에 할당될 기준을 변경하는 것을 의미합니다.분류 모델에서는 예측 값이 특정 클래스에 할당될 확률로 반환됩니다. 일반적으로 0.5를 기준으로 예측 값을 분류하며, 이 0.5의 기준을 임계값이라고 합니다. 임계값을 조절하는 것은 이 기준을 변경하는 것을 의미합니다. 불군형 데이터에서는 소수 클래스로 분류될 확률은 낮을 것 이고 다수 클래스로 분류될 확률은 높을 것 입니다.그렇기 때문에 임계값을 0.5를 조절하여 소수 클래스를 더 잘 맞출수 있게 설정하는 것 입니다. 왜 소수 클래스의 확률이 낮고, 다수 클래스의 확률은 높을까? 더보기데이터 편향모델은 데이터 수가 많은 클래스에 더 많이 학습됩니다. 불균형 데이터에서는 다수 클래스의 데이..
✅자료형분류는 주로 명목형을 다룬다. - 나이는 어떤 자료형일까?더보기주로 명목형으로 분류됩니다. 나이 자체의 크기는 의미가 없고, 단순히 그룹을 나누는 용도로 사용합니다.그렇기 때문에 20살에게 작은 가중치를 주고 30살에게 더 큰 가중치를 주는 것은 언뜻 보기에는 비합리적으로 보일 수 있습니다. 하지만 데이터와 도메인 지식을 함께 고려하면 다른 결론을 내릴 수 있습니다.만약 나이가 많을수록 구매 금액이 크다 라는 도메인이 있을 경우 나이에 따라 가중치를 다르게 주는 것이 합리적일 수 있습니다. ✅현업에서의 분류 문제 예시더보기 사진을 보고 강아지인지 고양이인지를 맞추는 문제 이상 거래 탐지이상 거래 탐지는 O/X로 분류할 수 있는 문제입니다.카테고리 분류카테고리 분류는 모든 이커머스의 고민이다. 사..
ROC curve는 주로 이진 분류기를 평가하는 지표이다.ROC 커브가 좌상단에 붙어있을수록 더 좋은 이진분류기를 의미한다. ✅ROC 커브를 설명하기전에 알아야할 내용!True Positive Rate과 False Positive Rate Positive 는 우리가 예측하고 싶은 것- 환자가 희귀병을 보유하고 있다. True / False 은 예측이 실제와 일친한다. / 실제와 일치하지않는다.- True = 실제로 희귀병을 가지고 있다. / False = 실제로 희귀병을 가지고 있지 않다. True Positive 는 에측한 결과가 실제랑 일치하는 것을 말하고 False Positive 는 예측한 결과가 실제랑 일치하지않는것을 말한다. - True Positive = 희귀병을 가지고 있을 것이라고 예..
✅그래프 그리는 라이브러리 : Matplotlib.pyplot🔸plot() : DataFrame 객체에서 데이터를 시각화하는데 사용x와 y 인수에 각각 x축과 y축에 해당하는 열을 지정import pandas as pdimport matplotlib.pyplot as plt# 샘플 데이터프레임 생성data = { 'A': [1, 2, 3, 4, 5], 'B': [5, 4, 3, 2, 1]}df = pd.DataFrame(data)# 선 그래프 그리기df.plot(x='A', y='B')plt.show()# Figure와 Axes 객체 생성fig, ax = plt.subplots()ax.plot(df['A'], df['B'])plt.show()🔸 plot매서드의 스타일을 설정하는 파라미터 :..
✅재현 가능성 우연히 결과가 나오는 것이 아닌, 항상 일관된 결과가 나올수 있는 상태동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지 여부, 연구의 신뢰성을 높이는 중요한 요소ex) 신약을 개발할 때 실험실에서만 효과가 있는 것이 아니라 실제 상황에서도 일관된 결과가 나온다고 믿을 수 있기 때문에 개발 가능한 것결과가 재현되지 않는다면 해당 가설의 신뢰도가 떨어진🔸최근 p값에 대한 논쟁p값을 어떻게 사용하냐에 따라 재현 가능성이 가능하냐 불가능하냐가 정해진다p값을 사용하지 않는 것이 좋다유의 수준을 0.05에서 변경하는 것이 좋다🔶재현성 위기의 원인 1️⃣가설검정 원리상의 문제나 가설검정의 잘못된 사용 🔸가설검정 원리상의 문제 : 가설검정 방법 자체의 이론적 또는 절차적 한계와 문제를 의미..
딥러닝이 뭐야? ✅머신러닝 vs 딥러닝 머신러닝과 딥러닝은 내부 구조와 활용범위가 다를 뿐 기본적인 흐름은 같다.다만 딥러닝은 자연어처리와 이미지 처리에 뛰어난 발전을 이루었다.🔸공통점 : 데이터로부터 가중치를 학습하여 패턴을 인식하고 결정을 내리는 알고리즘, 인공지능(AI)의 하위 분야 🔸차이점머신러닝 : 데이터 안의 통계적 관계를 찾아내며 예측이나 분류를 하는 방법딥러닝 : 머신러닝의 한 분야로 신경세포 구조를 모방한 인공 신경망을 사용✅딥러닝의 유래 인공 신경망(Artificial Neural Networks)인간의 신경세포를 모방하여 만든 망(Networks)신경세포 : 이전 신경세포에서 전달된 자극을 받아 전기신호로 변환하여 이후 신경세포로 전달하는 역할을 하는 세포 퍼셉트론(Perceptr..