목록python (76)
sein-choi 님의 블로그
🔸모집단 : 관심의 대상이 되는 전체 집단ex) 대한민국의 모든 성인 🔸표본 : 모집단에서 무작위로 추출한 일부ex) 대한민국의 성인 중 일부를 조사 🔸전수조사모집단 전체를 조사하는 방법. 대규모일 경우 비용과 시간이 많이 든다🔸표본조사표본만을 조사하는 방법. 비용과 시간이 적게 들지만, 표본이 대표성을 가져야 한다모집단의 특성을 가질 것이라는 가정을 하고 표본 수집를 해야한다✅표본을 사용하는이유비용과 시간전체 모집단을 조사하는 것은 비용과 시간이 많이 들기 때문에 대부분의 경우 불가능하거나 비효율적이다표본 조사는 이러한 자원을 절약하면서도 유의미한 결과를 도출할 수 있는 방법이다접근성모든 데이터를 수집하는 것이 물리적으로 불가능한 경우가 많다ex) 특정 질병에 걸린 모든 환자의 데이터를 수집하는..
데이터 생성하기# 데이터 분석에서 자주 사용되는 라이브러리import pandas as pd# 다양한 계산을 빠르게 수행하게 돕는 라이브러리import numpy as np# 시각화 라이브러리import matplotlib.pyplot as plt# 시각화 라이브러리2import seaborn as snsdata = [85, 90, 78, 92, 88, 76, 95, 89, 84, 91] ✅위치추정 : 데이터의 중심을 확인하는 방법대표적인 방법 : 평균, 중앙값mean = np.mean(data)median = np.median(data)print(f"평균: {mean}, 중앙값: {median}") # 평균: 86.8, 중앙값: 88.5 ✅변이추정 : 데이터들이 서로 얼마나 다른지 확인하는 방법대표적인..
데이터분석에서 통계가 중요한 이유통계는데이터 분석에서 통계는 데이터를 이해하고 해석하는데 중요한 역할을 한다데이터를 요약하고 패턴을 발견할 수 있다추론을 통해 결론을 도출하는 과정을 돕는다즉, 데이터 기반의 의사결정을 내릴 수 있다기술 통계와 추론 통계✅기술 통계 : 데이터를 요약하고 설명하는 통계 방법평균, 중앙값, 분산, 표준편차 등...데이터를 특정 대표값으로 요약데이터 전체를 일일이 보지 않고도 대략적인 동향을 파악할 수 있다데이터에 대한 대략적인 특징을 간단하고 빠르고 쉽게 알 수 있다 🔶기술 통계 종류 🔸평균(Mean)데이터의 중심 경향과 대푯값을 나타낸다데이터의 일반적인 경향을 파악하는데 유용하다모든 데이터 합을 데이터의 개수로 나누어 계산하는 방식이다ex) 시험점수가 30, 60, 80..
🔶데이터 프레임 생성하기 : 학습 데이터(train_used_car)import pandas as pd# 중고차 시장 학습 데이터프레임 생성train_used_car = pd.DataFrame({ 'Brand': ['Hyundai', 'Kia', 'Hyundai', 'SsangYong', 'Hyundai', 'Kia', 'Hyundai', 'SsangYong', 'Kia', 'Hyundai'], 'Model': ['SUV', 'Sedan', 'Truck', 'SUV', 'Sedan', 'Truck', 'SUV', 'Sedan', 'SUV', 'Truck'], '정비 이력등급': ['A', 'B', 'A', 'C', 'B', 'C', 'A', 'B', 'C', 'A'], '주행거리'..
✅범주형 (Categorical) 변수주로 문자열 타입 : object 또는 category 인코딩(Encoding) : 모델이 이해할 수 있는 형태로 변환하는 과정 대부분의 머신러닝 모델은 수치형 변수(숫자형 데이터)를 필요로 한다 범주형 변수를 인코딩한다는 것은 모델이 범주형 변수를 이해하고 활용할 수 있도록 수치형 변수로 변환하는 것을 의미한다 이를 통해 모델은 범주형 변수에 대한 패턴이나 관계를 파악하고 예측에 활용할 수 있다범주형 변수가 '명목형'인지 '순서형'인지 알아야 하는 이유는 모델이 인지할 수 있는 수치형 변수로 변환하는 '인코딩(Encoding)'을 하는 방법이 달라지기 때문이다 🔶데이터 프레임 생성하기 : 학습 데이터(train_used_car)import pandas as ..
AI : 인간의 지능을 요구하는 업무를 수행하기 위한 시스템Machine Learning : 관측된 패턴을 기반으로 의사결정을 하기 위한 알고리즘Deep Learning : 인공신경망을 이용한 머신러닝알고리즘?어떤 문제의 해결을 위하여 입력된 자료를 토대로 하여 원하는 출력을 유도하여 내는 규칙의 집합이다반복되는 문제를 풀기 위한 절차 그 자체를 의미한다 알고리즘의 예시하늘이 흐린 것을 확인경험상 비가 올것 같음정확한 확인을 위해 일기예보 검색일기예보 확인하니 비올 확률 30%우산을 가지고 갈지 말지 결정 (Yes or No)어떤 우산을 가지고 갈지 결정 (검정, 노랑, 초록)검은색 장우산 가지고 외출각각의 조건에 따라 Yes or No를 선택하거나, 여러 선택지 중에 선택하는 그 과정 자체가 바로 ..