목록python (76)
sein-choi 님의 블로그
✅피어슨 상관계수 : 모수 상관계수의 대표두 연속형 변수 간의 선형 관계를 측정하는 지표-1에서 1 사이의 값을 가진다1은 완전한 양의 선형 관계-1은 완전한 음의 선형 관계0은 선형 관계가 없음을 의미피어슨 상관계수는 X와 Y의 선형 관계를 볼 수 있다그래프에서 점들이 직선적으로 퍼져 있으며, 상관계수는 0.99로 매우 강한 양의 선형 관계를 나타낸다 🔶피어슨 상관계수의 가정데이터가 선형적인 관계를 보일 때즉, 두 변수 사이에 직선의 형태로 관계가 존재할 때데이터가 정규분포로 존재할 때이는 특히 피어슨 상관계수를 통한 유의성 검정에서 중요한 가정이다분석 대상이 되는 변수들은 연속형 변수여야 한다import numpy as npimport pandas as pdimport matplotlib.pyplo..
회귀(Regression) : 현재 가지고 있는 데이터를 가지고 어떠한 특정 값을 예측하는 경우 선형회귀 : 직선의 관계를 보이는 상황에 사용 ✅단순선형회귀 : 한개의 변수에 의한 결과를 예측하나의 독립변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법그래프 해석데이터의 경향을 보고 데이터의 경향을 파악할 수 있는데 파란색 선을 그렸다파란색 선을 활용해서 어떤 X 값이 주어져도 그에 맞는 Y값을 계산할 수 있고존재하지 않는 X값에 대해서도 Y값을 예측할 수 있다 절편 = intercept 기울기 = X의 계수, cofficient🔶회귀식Y = β0(절편) + β1X(기울기)1차 함수와 같다 🔶특징하나의 독립변수와 종속변수와의 관계를 분석 및 예측한다독립 변수의 변화에 따라 종속 ..
유의성 검정 : 표본 데이터를 바탕으로 모집단에 대한 주장(가설)을 평가하는 통계적 방법즉, 우리가 관찰한 결과가 단순한 우연인지, 아니면 실제로 의미 있는 차이가 있는지를 판단하기 위해 사용된다 ✅A/B 검정 : 두 그룹을 비교A/B 검정은 두 그룹(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법이다두 그룹 간의 차이를 비교하고, 그 차이가 우연에 의한 것인지 통계적으로 유의미한 것인지를 판단하는 것인 핵심이다마케팅, 웹사이트 디자인 등에서 많이 사용된다사용자들을 두 그룹으로 나누고, 각 그룹에 다른 버전을 제공한 후, 반응을 비교한다일반적으로 전환율, 클릭률, 구매수, 방문 기간, 방문한 페이지 수, 특정 페이지 방문 여부, 매출 등의 지표를 비교한다🔶A/B 테스트 결과 해..
✅관찰된 빈도와 기대되는 빈도관찰된 빈도 : 실제로 관찰된 데이터의 빈도즉, 어떤 사건이 실제로 얼마나 많이 발생했는지를 나타내는 수치이다기대되는 빈도 : 어떤 가설이나 이론에 따라 예상되는 빈도즉, 만약 어떤 가설이 참이라면 어떤 사건이 얼마나 많이 발생할 것인지를 나타내는 수치이다1️⃣주사위 던지기상황 : 6면체 주사위를 60번 던졌을 때 각 면이 나온 횟수를 기록주사위 숫자123456관찰된 빈도129101586주사위 숫자123456기대되는 빈도101010101010관찰된 빈도 : 위 표에서 각 면이 나온 횟수가 관찰된 빈도기대되는 빈도 : 주사위는 공정하다고 가정하면, 각 면이 나올 확률은 1/6이다따라서 60번 던졌을 때 각 면이 나올 기대 빈도는 60 * (1/6) = 10이다카이제곱 검정에서의..
✅정규분포 : 가장 대표적인 분포정규분포는 종 모양의 대칭 분포로, 대부분의 데이터가 평균 주위에 몰려 있는 분포한다평균을 중심으로 좌우 대칭이며, 평균에서 멀어질수록 데이터의 빈도가 감소한다표준편차는 분포의 퍼짐 정도를 나타낸다표준편차가 클수로 넓은 형태를 띤다표준 정규분포는 분산 = 1, 평균 = 0인 정규분포이다🔶실제 활용 예시키와 몸무게대부분의 사람들의 키와 몸무게는 정규분포를 따른다예를 들어, 평균 키가 170cm이고 표준편차가 10cm인 경우, 대부분의 사람들의 키는 160cm에서 180cm 사이에 위치하게 된다시험 점수큰 집단의 시험 점수는 정규분포를 따르는 경향이 있다평균 점수 주위에 많은 학생들이 위치하고, 극단적인 고득점자와 저득점자는 적다정규분포는 많은 상황에서 흔히 관찰되는 분포이..
✅표준오차와 신뢰구간- 표본이 모집단 대비해 얼마나 차이가 나는지. 신뢰할 수 있는지 ✅표본오차 (Sampling Error)-표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이를 나타낸다 표본 크기가 클수록(데이터 수가 많을수록) 표본오차는 작아진다이는 표본이 모집단을 완벽하게 대표하지 못하기 때문에 발생하며, 표본의 크기와 표본 추출 방법에 따라 달라질 수 있다 표본의 크기 표본의 크기가 클수록 표본오차는 줄어든다더 많은 데이터를 수집할수록 모집단을 더 잘 대표하게 된다표본 추출 방법 무작위 추출 방법을 사용하면 표본오차를 줄일 수 있다 (특정 데이터에 치중되지 않게끔)모든 모집단 요소가 선택될 동등한 기회를 가지게 해야 합니다 (공평해야 된다)✅신뢰구간 (Confidence Interval)-신뢰..