[기초통계] 가설 검정(Hypothesis Testing)
·
About Statistics
가설 검정은 주어진 데이터로부터 특정 가설이 참인지 거짓인지를 판단하는 통계적 방법이를 통해 우리는 데이터에 기반해 의사결정을 내릴 수 있으며, 많은 실제 데이터 분석에서 핵심적인 역할을 함. 1. 가설 검정의 개념가설: 어떤 주장이나 예측을 검토하는 과정예를 들어, "이 제품의 평균 수명은 1000시간 이상이다"와 같은 주장검정: 이 주장이 데이터에 의해 지지되는지 또는 반증되는지 확인하는 과정2. 귀무가설 (Null Hypothesis)과 대립가설 (Alternative Hypothesis)귀무가설 (H₀): 검정하고자 하는 주장에 대해 기존 상태나 변화가 없다는 가설예를 들어, "이 제품의 평균 수명은 1000시간이다."대립가설 (H₁): 귀무가설과 반대되는 주장예를 들어, "이 제품의 평균 수명은..
[기초통계] 기술통계 VS 추론통계
·
About Statistics
통계학은 데이터를 분석하고, 패턴을 찾아내며, 결론을 도출하는 방법을 제공하는 학문 기술통계와 추론통계통계의 핵심적인 부분으로 각기 다른 목적과 방법론을 가지고 있으므로 차이를 잘 이해하는 것이 중요기술통계정의:주어진 데이터 집합의 특성을 요약하고 설명하는 데 사용됨이 방법은 데이터를 이해하는 데 초점을 맞추며, 데이터를 간단히 요약하거나 시각적으로 표현하는 데 유용함목적: 데이터 집합의 중요한 특성(예: 중심 경향성, 변동성, 분포 등)을 요약.방법:평균, 중앙값, 최댓값, 최솟값, 분산, 표준편차 등.시각화: 히스토그램, 박스플롯 등.수식 예시: 데이터 집합의 평균 구하기평균: 주어진 데이터 집합의 모든 값을 더한 후 데이터 개수로 나누어 구함$ \text{평균} = \frac{1}{n} \sum_{..
[데이터분석을 위한 확률과통계] 찐 기초 개념 정리
·
About Statistics
확률의 기초(1) 확률(Probability)란?정의: 어떤 사건이 발생할 가능성을 0과 1 사이의 값으로 나타낸 것$P(A) = 0 $ : 사건 A는 절대 일어나지 않음$P(A) = 1 $ : 사건 A는 반드시 일어남예제 :동전을 던질 때 앞면이 나올 확률$$ P(앞면) = \frac{앞면이 나오는 경우의 수}{전체 경우의 수} = \frac{1}{2}$$주사위를 던질 때 숫자 3이 나올 확률$$ P(3) = \frac{1}{6}$$(2) 조건부 확률(Conditional Probability)어떤 사건 A가 일어났다는 조건하에, 다른 사건 $B$가 일어날 확률수식 :$$ P(B|A) = \frac{P(A \cap B)}{P(A)}$$여기서 :$ P(A \cap B) $ : A와 B가 동시에 발생할 확..
[기초통계] 통알못을 위한 기초통계 1 리뷰 : t-test
·
About Statistics
t-test?t-test를 알아야 ANOVA(분산 분석)도 쉽게 이해할 수 있다!t-test의 목적 : 두 집단이 같은지 다른지 비교하기 위한 것 정도로 이해하고 넘어가보자표본이 작은 정규 분포 모집단의 평균을 추정할 때 발생하는 연속확률분포 공식화를 통해 두 개의 표본이 주어진다면 표본의 크기가 작더라도 한 표본의 평균이 다른 표본의 평균과 어떻게 같은지 계산두 집단이 이질적인지 동질적인지 알기 위해서 통계의 대표적인 측정값을 사용!평균샘플 A와 샘플 B의 평균값이 우연히 같은 확률은 얼마나 될까? = 샘플 A와 샘플 B의 평균값의 차이가 우연히 발생했을 확률은 얼마나 될까?두 집단이 다르다면 두 집단의 평균이 다르다는 의미가 됨평균의 차이가 얼마나 나야 두 집단이 다른지 같은지 판단할 수 있을까?표준..
[기초통계] 통알못을 위한 기초통계 1 리뷰 : 분산
·
About Statistics
통계의 시작통계는 분산(Variance)의 마법통계에서 가장 많이 쓰는 대푯값은 평균과 표준편차, 두개가 같이 있어야지만 빛을 발한다!평균 : 데이터의 중심값으로서 데이터의 특성을 대표하는 값평균은 데이터 내 아웃라이어에 민감하게 반응한다!$$평균 = \frac{데이터의 총합}{데이터의 개수}$$분산$ 모집단의 분산 = \frac{(데이터의 값 - 평균값)^2}{데이터의 개수} $$ 표본집단 분산 = \frac{(데이터의 값 - 평균값)^2}{데이터의 개수 -1} $표본집단의 분산에서 n-1 이 되는 것은 자유도와 관련이 있음(후술할 것)$분산 = \frac{제곱 합}{자유도}$표준편차 : 분산에 제곱근을 씌운것$$ Standard Deviation = \sqrt{Variance} = \sqrt\frac..
R2 와 p-value의 관계
·
About Statistics
* R2와 p-value와의 확립된 연관성은 없다 >> 데이터, 그 해석에 따라 다르다 * R2 값은 모델이 얼마나 많은 변동을 설명하는지 알려줌 > 0.1 R2는 모델이 데이터 내 변동의 10%를 설명한다는 것을 의미함 >>R2이 클수록 더 좋은 모델 * p-value 값은 "Intercept only model의 적합성과 모델이 동일함"에 대한 F 통계 가설 테스트에 대해 알려줌 >> 따라서 p-값이 유의 수준(일반적으로 0.05)보다 작으면 모델이 데이터에 잘 맞음 * R2 - p-value 값의 R2 낮음 높음 p-value 낮음 1 2 높음 3 4 1. 낮은 R2, 낮은 p-value - 데이터의 많은 변동를 설명하지는 못하지만 중요함을 의미함(모델이 없는 것보다는 나은 상태) 2. 높은 R2,..
상관도 측정
·
About Statistics
- 공분산(corvariance) : 2개의 확률변수의 선형 관계를 나타내는 값, 한 확률 변수의 증감에 따른 다른 확률 변수의 증감의 경향에 대한 측도이다. 쉽게 말해 분산이라는 개념을 확장하여 두 개의 확률 변수의 흩어진 정도를 공분산이라고 하는 것 1. 피어슨 상관계수(Pearson correlation coefficient or Pearson's r) : '전체 편차' 내에서 '예측치와 평균 간의 차이'가 차지하는 비율 - 상관계수 r은 그대로 사용되기보다는 한번 제곱한 상태로 사용되는 경우가 많다. 이를 결정계수(coefficient of determination, R2)라고 한다. - 상관계수 r은 -1 이상 1 이하의 수가 된다. 1에 가까울 수록 양의 상관이 강하고, -1에 가까울수록 음의..
자료의 대표, 분산과 표준편차
·
About Statistics
평균(mean) .mean() 가장 대표적인 대표값/ 분산된 데이터의 무게 중심 중앙값(median) .median() 데이터를 늘어놓았을 때 중앙에 오는 값/데이터의 개수가 짝수일 때는 한 가운데 2개의 평균이 중앙값이 된다 최빈값(mode) .unique() 빈도수가 가장 많은 데이터/ 질적 데이터 에서는 이 수치만이 대표값이 된다. * 중앙값의 장점 : 평균이 이상치의 영향을 많이 받지만 중앙값은 이상치의 영향을 받지 않는다. * 최빈값의 장점 : 분포가 넓게 되어있을 때 최빈값은 중심이 되는 지점을 알려줄 수 있다. 편차 데이터 값 - 평균값 분산 편차 제곱합 / 데이터 수 편차 제곱합 편차 1^2 + 편차 2^2 + .... - 분산 : 편차의 제곱 평균 값 - 편차가 큰 자료일수록 분산의 수치..