목록python/ML (27)
sein-choi 님의 블로그
✅threshold 조절threshold 조절은 분류 모델에서 특정 클래스에 할당될 기준을 변경하는 것을 의미합니다.분류 모델에서는 예측 값이 특정 클래스에 할당될 확률로 반환됩니다. 일반적으로 0.5를 기준으로 예측 값을 분류하며, 이 0.5의 기준을 임계값이라고 합니다. 임계값을 조절하는 것은 이 기준을 변경하는 것을 의미합니다. 불군형 데이터에서는 소수 클래스로 분류될 확률은 낮을 것 이고 다수 클래스로 분류될 확률은 높을 것 입니다.그렇기 때문에 임계값을 0.5를 조절하여 소수 클래스를 더 잘 맞출수 있게 설정하는 것 입니다. 왜 소수 클래스의 확률이 낮고, 다수 클래스의 확률은 높을까? 더보기데이터 편향모델은 데이터 수가 많은 클래스에 더 많이 학습됩니다. 불균형 데이터에서는 다수 클래스의 데이..
✅자료형분류는 주로 명목형을 다룬다. - 나이는 어떤 자료형일까?더보기주로 명목형으로 분류됩니다. 나이 자체의 크기는 의미가 없고, 단순히 그룹을 나누는 용도로 사용합니다.그렇기 때문에 20살에게 작은 가중치를 주고 30살에게 더 큰 가중치를 주는 것은 언뜻 보기에는 비합리적으로 보일 수 있습니다. 하지만 데이터와 도메인 지식을 함께 고려하면 다른 결론을 내릴 수 있습니다.만약 나이가 많을수록 구매 금액이 크다 라는 도메인이 있을 경우 나이에 따라 가중치를 다르게 주는 것이 합리적일 수 있습니다. ✅현업에서의 분류 문제 예시더보기 사진을 보고 강아지인지 고양이인지를 맞추는 문제 이상 거래 탐지이상 거래 탐지는 O/X로 분류할 수 있는 문제입니다.카테고리 분류카테고리 분류는 모든 이커머스의 고민이다. 사..
ROC curve는 주로 이진 분류기를 평가하는 지표이다.ROC 커브가 좌상단에 붙어있을수록 더 좋은 이진분류기를 의미한다. ✅ROC 커브를 설명하기전에 알아야할 내용!True Positive Rate과 False Positive Rate Positive 는 우리가 예측하고 싶은 것- 환자가 희귀병을 보유하고 있다. True / False 은 예측이 실제와 일친한다. / 실제와 일치하지않는다.- True = 실제로 희귀병을 가지고 있다. / False = 실제로 희귀병을 가지고 있지 않다. True Positive 는 에측한 결과가 실제랑 일치하는 것을 말하고 False Positive 는 예측한 결과가 실제랑 일치하지않는것을 말한다. - True Positive = 희귀병을 가지고 있을 것이라고 예..
딥러닝이 뭐야? ✅머신러닝 vs 딥러닝 머신러닝과 딥러닝은 내부 구조와 활용범위가 다를 뿐 기본적인 흐름은 같다.다만 딥러닝은 자연어처리와 이미지 처리에 뛰어난 발전을 이루었다.🔸공통점 : 데이터로부터 가중치를 학습하여 패턴을 인식하고 결정을 내리는 알고리즘, 인공지능(AI)의 하위 분야 🔸차이점머신러닝 : 데이터 안의 통계적 관계를 찾아내며 예측이나 분류를 하는 방법딥러닝 : 머신러닝의 한 분야로 신경세포 구조를 모방한 인공 신경망을 사용✅딥러닝의 유래 인공 신경망(Artificial Neural Networks)인간의 신경세포를 모방하여 만든 망(Networks)신경세포 : 이전 신경세포에서 전달된 자극을 받아 전기신호로 변환하여 이후 신경세포로 전달하는 역할을 하는 세포 퍼셉트론(Perceptr..
✅고객 세그멘테이션비지도 학습이 가장 많이 사용되는 분야는 고객 관계 관리(Customer Relationship Management, CRM)분야이다. 이중 고객 세그멘테이션(Customer Segmentation)은 다양한 기준으로 고객을 분류하는 기법입니다. 주로 타겟 마케팅이라 불리는 고객 특성에 맞게 세분화 하여 유형에 따라 맞춤형 마게팅이나 서비스를 제공하는 것을 목표로 둔다. RFM의 개념Recency(R) : 가장 최근 구입 일에서 오늘까지의 시간Frequency(F) : 상품 구매 횟수Monetary value(M) : 총 구매 금액✅RFM을 활용한 고객 세그멘테이션 실습할 데이터 셋 : UCI 데이터 세트 다운로드 컬럼 이름컬럼 설명InvoiceNO6자리의 주문번호(취소된 주문은 C 로..
✅대표적인 비지도 학습인 K-평균 알고리즘 (K-Means Clustering)분석가가 선정한 K군집 수를 기준으로 데이터를 군집화하는 것 🔸K-Means Clustering 프로세스1. K개 군집 수 설정 (3개 군집수 설정)2. 임의의 중심을 선정 (빨강, 초록, 파랑을 중심으로 선정)3. 해당 중심점과 거리가 가까운 데이터를 그룹화 4. 데이터의 그룹의 무게 중심으로 중심점을 이동- 각 그룹의 중심을 해당 그룹에 속한 데이터 포인트들의 평균으로 업데이트5. 중심점을 이동했기 때문에 다시 거리가 가까운 데이터를 그룹화 (3~5번 반복)6. 그룹의 중심이 더이상 변화하지않을때 까지 반복한다. 🔸장점일반적이고 적용하기 쉽다.🔸단점거리 기반으로 가까움을 측정하기 때문에 차원이 많을 수록 정확도가 떨어..