728x90
t-test?
- t-test를 알아야 ANOVA(분산 분석)도 쉽게 이해할 수 있다!
- t-test의 목적 : 두 집단이 같은지 다른지 비교하기 위한 것 정도로 이해하고 넘어가보자
- 표본이 작은 정규 분포 모집단의 평균을 추정할 때 발생하는 연속확률분포 공식화를 통해 두 개의 표본이 주어진다면 표본의 크기가 작더라도 한 표본의 평균이 다른 표본의 평균과 어떻게 같은지 계산
- 두 집단이 이질적인지 동질적인지 알기 위해서 통계의 대표적인 측정값을 사용!
- 평균
- 샘플 A와 샘플 B의 평균값이 우연히 같은 확률은 얼마나 될까? = 샘플 A와 샘플 B의 평균값의 차이가 우연히 발생했을 확률은 얼마나 될까?
- 두 집단이 다르다면 두 집단의 평균이 다르다는 의미가 됨
- 샘플 A와 샘플 B의 평균값이 우연히 같은 확률은 얼마나 될까? = 샘플 A와 샘플 B의 평균값의 차이가 우연히 발생했을 확률은 얼마나 될까?
- 평균의 차이가 얼마나 나야 두 집단이 다른지 같은지 판단할 수 있을까?
- 평균
- 표준편차를 이용하자
- 표준편차의 퍼져있는 정도(=편차)가 의미 있는(=원인이 있는) 편차인지 아닌지를 알아야 함
- 두 집단의 평균적인 거리의 차이와 표준편차를 이용해서 평균값의 차이가 얼마나 나는지를 알아볼 수 있음
→ 특별한 의미가 없는 무작위의 random한 차이인 표준편차를 가져와서 표준편차와 평균값의 차이를 비교하는 것이 t-test의 핵심
- z-test?

- z-test ← 모집단 // t-test ← 표본집단
- 가설 설정
- H0:ˉxa=ˉxb
- Ha:ˉxa≠ˉxb
- 다르게 표현하면
- H0:ˉxa=ˉxb
- Ha:ˉxa<ˉxb or ˉxa>ˉxb
같지 않다 혹은 다르다라고 표현되는 경우 양측검정 | 크다 or 작다인 경우 단측검정- 양측검정
- Critical value : z-score가 0.05 미만이어야 하는 값 (z-score = -1.96 and 1.96)
- z-test 시행 후 z-score가 1.96보다 크거나 -1.96보다 작을 때 양측검정에서 5%보다 작은 p-value를 가지게 되어 대립가설을 채택하게 됨
- Critical value : z-score가 0.05 미만이어야 하는 값 (z-score = -1.96 and 1.96)
- 단측검정
- 단측검정의 경우 방향성을 명시해서 가설로 설정하여 좌측, 우측 검정이라고 하는 경우가 있음
- 단측검정의 경우 한쪽에 5%를 몰아야 하기 때문에 Critical value가 바뀌게 됨(z-score = 1.64 or -1.64)
- z-score가 -1.64보다 작거나 1.64보다 큰 경우 p-value가 0.05보다 작아지게 됨
- 양측검정
- t-test를 하기 위해서는 t값과 t분포가 필요하다
z-value=x−μσ
t-value=¯xa−¯xbs√n
t-test process
1. 두 그룹의 평균값의 차이는 우리의 핵심 관심사이다
2. 두 그룹의 평균값의 차이를 분자에 둔다
3. 그러나 이 값만으로는 충분히 큰지 작은지 알 수 없다
4. 그래서 비교대상인 표준편차를 가져와 분모에 넣고 나누어 비율을 만든다
5. 표준편차는 의미 없는 무작위의(random) 편차이다
6. 그러므로, 평균값의 차이가 표준편차보다 작거나 비슷하다면 이 평균값의 차이는 우연히 발생했다고 판단한다
7. 반대로 평균값의 차이가 표준편차보다 충분히 크다면 이 평균값의 차이는 우연히 발생하지 않았다고 보고
무엇인가 원인 혹은 이유가 있다고 추정한다
- 샘플의 사이즈에 따라 표준편차가 크게 영향을 받는다
- 샘플 사이즈가 커질 수록 샘플의 표준편차는 점점 작아진다
샘플의 표준편차(s)가 모집단의 표준편차(σ)에 근접하게 되는것 - √n 의 의미는 샘플사이즈를 감안해 보다 정확한 수치로 보정해주기 위해서 사용한다고 이해하면 빠름
- 샘플 사이즈가 커질 수록 샘플의 표준편차는 점점 작아진다
- 자유도
t-value=¯xa−¯xbs√n(df=n−1) - t-value 공식 뒤 df=n−1 degree of freedom의 약자
- 통계에서 자유롭다는 것은 정규분포를 따르는 경우를 의미함
샘플사이즈가 커지면 더 자유로워짐, 샘플사이즈가 커질수록 정규분포를 따를 가능성이 매우 높아짐

- t 값이 커질 수록 표준 정규분포곡선에 근접함
t-value=¯xa−¯xbs√n =178.5−179.97.05√101≈−1.996
1. A대학 남학생의 평균키는 178.5cm, B대학 남학생의 평균키는 179.9cm 이다.
2. 표준편차 s는 7.05cm 이고, 샘플 사이즈 n은 101명이다.
3. t값의 공식을 이용해 구한 t값은 1.996이다.
4. t-table에서 양측검정 (two-tails)의 유의수준 $\\alpha$ \= 0.05와 $𝑑𝑓$=101−1=100을 이용해 찾은 c.v.은 1.984이다.
5. 우리의 t값이 c.v. 보다 크므로 p값은 5% (0.05)보다 작아 유의하다.
6. 그러므로 우리는 귀무가설을 기각하고 대립가설을 채택하기로 한다.
7. 이는 두 대학의 평균키 차이 1.4cm가 우연히 발생하지 않았으며,
여기에는 무언가 이유 혹은 원인이 있다고 추정할 수 있다.
- t-test의 종류
- two-sample t-test / independent t-test
- 두 개의 독립적인 샘플을 대상으로 두 샘플이 동일한지 아닌지에 대한 분석을 진행
- 동일한 모집단에서 나왔다면 동일할 것, 서로 다른 모집단에서 나온 것이라면 다를 것이라는 생각에서 출발
- One-sample t-test
- 견본이 주어진 상태에서 가진 데이터(샘플)이 동일한지 분석하기 위해 사용
- Paired t-test
- 반복측정(동일한 대상에 다른시점에 복수로 측정)의 경우 사용
- 대상은 동일하나 시점이 다른 경우에 사용하는 것으로 보면 편함
- two-sample t-test / independent t-test
정규분포

- 정규분포곡선은 평균값을 중심으로 좌우가 대칭적인 곡선 모양이며 양쪽 끝은 0을 향해 가지만 영원히 0에 닿지는 않음
- 평균값 μ 와 표준편차 σ 가 있다면 정규분포를 규정할 수 있음
- 중요한 Point!
- 평균과 표준편차가 다르다면 세상에는 무한대 개의 서로 다른 정규분포가 존재한다
- 정규분포곡선 아래의 면적은 확률을 의미한다 → 면적의 합은 1이 됨 (확률의 합은 1이기 때문)
- 정규분포곡선의 해석
평균과 표준편차만으로 데이터의 관찰값의 분포를 알 수 있음- 데이터의 관찰값 중 68.2%는 평균값 ±1× 표준편차 구간 안에 존재함
- 데이터의 관찰값 중 95.4%는 평균값 ±2× 표준편차 구간 안에 존재함
- 데이터의 관찰값 중 99.7%는 평균값 ±3× 표준편차 구간 안에 존재함
- p-value와 정규분포 : p-value는 정규분포곡선의 면적을 의미함
- 물론 구하려면 면적을 적분해야함...
- 표준정규분포 : 평균이 "0" 이고 표준편차가 "1"인 정규분포
- 가지고 있는 데이터가 정규분포에 근사한다고 가정을 한 후 표준화를 통해 정규분포곡선을 표준정규분포곡선으로 변경
- 표준화 공식 z−score=x−μσ
- 예시
z82=82−825=0
z90=90−825=1.6 - 90이란 숫자는 표준정규분포에서 1.6이란 숫자로 표현됨 (z-score가 1.6이라고 표현)
- 이렇게 구한 z-score를 표준정규분포표에서 찾으면 해당하는 z-score의 확률값을 찾을 수 있음
- 데이터가 정규분포곡선을 따를 때 표준화를 통해 표준정규분포로 변환한 후 표준정규분포를 통해 모집단에 대한 추정을 하는 것
표본과 모집단
- 모집단(population)은 전체 / 표본(sample)은 엄격한 기준에 의해 모집단에서 선별된 집단
- 표본은 항상 모집단을 대표할 수 있어야 한다
728x90
반응형
'About Statistics' 카테고리의 다른 글
| [기초통계] 기술통계 VS 추론통계 (0) | 2025.04.05 |
|---|---|
| [데이터분석을 위한 확률과통계] 찐 기초 개념 정리 (0) | 2025.01.02 |
| [기초통계] 통알못을 위한 기초통계 1 리뷰 : 분산 (0) | 2024.05.14 |
| R2 와 p-value의 관계 (0) | 2022.01.11 |
| 상관도 측정 (0) | 2021.09.28 |
