[기초통계] 통알못을 위한 기초통계 1 리뷰 : t-test

2024. 6. 10. 16:59·About Statistics
목차
  1. t-test?
  2. 정규분포
  3. 표본과 모집단
728x90

t-test?

  • t-test를 알아야 ANOVA(분산 분석)도 쉽게 이해할 수 있다!
  1. t-test의 목적 : 두 집단이 같은지 다른지 비교하기 위한 것 정도로 이해하고 넘어가보자
    • 표본이 작은 정규 분포 모집단의 평균을 추정할 때 발생하는 연속확률분포 공식화를 통해 두 개의 표본이 주어진다면 표본의 크기가 작더라도 한 표본의 평균이 다른 표본의 평균과 어떻게 같은지 계산
    • 두 집단이 이질적인지 동질적인지 알기 위해서 통계의 대표적인 측정값을 사용!
      • 평균
        • 샘플 A와 샘플 B의 평균값이 우연히 같은 확률은 얼마나 될까? = 샘플 A와 샘플 B의 평균값의 차이가 우연히 발생했을 확률은 얼마나 될까?
          • 두 집단이 다르다면 두 집단의 평균이 다르다는 의미가 됨
      • 평균의 차이가 얼마나 나야 두 집단이 다른지 같은지 판단할 수 있을까?
    • 표준편차를 이용하자
      • 표준편차의 퍼져있는 정도(=편차)가 의미 있는(=원인이 있는) 편차인지 아닌지를 알아야 함
      • 두 집단의 평균적인 거리의 차이와 표준편차를 이용해서 평균값의 차이가 얼마나 나는지를 알아볼 수 있음
        → 특별한 의미가 없는 무작위의 random한 차이인 표준편차를 가져와서 표준편차와 평균값의 차이를 비교하는 것이 t-test의 핵심
  2. z-test?
    • z-test ← 모집단 // t-test ← 표본집단
  3. 가설 설정
  • H0:ˉxa=ˉxb
  • Ha:ˉxa≠ˉxb
  • 다르게 표현하면
  • H0:ˉxa=ˉxb
  • Ha:ˉxa<ˉxb or ˉxa>ˉxb
    같지 않다 혹은 다르다라고 표현되는 경우 양측검정 | 크다 or 작다인 경우 단측검정
    1. 양측검정
      • Critical value : z-score가 0.05 미만이어야 하는 값 (z-score = -1.96 and 1.96)
        • z-test 시행 후 z-score가 1.96보다 크거나 -1.96보다 작을 때 양측검정에서 5%보다 작은 p-value를 가지게 되어 대립가설을 채택하게 됨
    2. 단측검정
      • 단측검정의 경우 방향성을 명시해서 가설로 설정하여 좌측, 우측 검정이라고 하는 경우가 있음
      • 단측검정의 경우 한쪽에 5%를 몰아야 하기 때문에 Critical value가 바뀌게 됨(z-score = 1.64 or -1.64)
      • - z-score가 -1.64보다 작거나 1.64보다 큰 경우 p-value가 0.05보다 작아지게 됨
  1. t-test를 하기 위해서는 t값과 t분포가 필요하다

z-value=x−μσ


t-value=¯xa−¯xbs√n

t-test process
1. 두 그룹의 평균값의 차이는 우리의 핵심 관심사이다
2. 두 그룹의 평균값의 차이를 분자에 둔다
3. 그러나 이 값만으로는 충분히 큰지 작은지 알 수 없다
4. 그래서 비교대상인 표준편차를 가져와 분모에 넣고 나누어 비율을 만든다
5. 표준편차는 의미 없는 무작위의(random) 편차이다
6. 그러므로, 평균값의 차이가 표준편차보다 작거나 비슷하다면 이 평균값의 차이는 우연히 발생했다고 판단한다
7. 반대로 평균값의 차이가 표준편차보다 충분히 크다면 이 평균값의 차이는 우연히 발생하지 않았다고 보고 
   무엇인가 원인 혹은 이유가 있다고 추정한다
  1. 샘플의 사이즈에 따라 표준편차가 크게 영향을 받는다
    • 샘플 사이즈가 커질 수록 샘플의 표준편차는 점점 작아진다
      샘플의 표준편차(s)가 모집단의 표준편차(σ)에 근접하게 되는것
    • √n 의 의미는 샘플사이즈를 감안해 보다 정확한 수치로 보정해주기 위해서 사용한다고 이해하면 빠름
  2. 자유도
    t-value=¯xa−¯xbs√n(df=n−1)
  3. t-value 공식 뒤 df=n−1 degree of freedom의 약자
  • 통계에서 자유롭다는 것은 정규분포를 따르는 경우를 의미함
    샘플사이즈가 커지면 더 자유로워짐, 샘플사이즈가 커질수록 정규분포를 따를 가능성이 매우 높아짐

  • t 값이 커질 수록 표준 정규분포곡선에 근접함

t-value=¯xa−¯xbs√n =178.5−179.97.05√101≈−1.996



1.  A대학 남학생의 평균키는 178.5cm, B대학 남학생의 평균키는 179.9cm 이다.
2.  표준편차 s는 7.05cm 이고, 샘플 사이즈 n은 101명이다.
3.  t값의 공식을 이용해 구한 t값은 1.996이다.
4.  t-table에서 양측검정 (two-tails)의 유의수준 $\\alpha$ \= 0.05와 $𝑑𝑓$=101−1=100을 이용해 찾은 c.v.은 1.984이다.
5.  우리의 t값이 c.v. 보다 크므로 p값은 5% (0.05)보다 작아 유의하다.
6.  그러므로 우리는 귀무가설을 기각하고 대립가설을 채택하기로 한다.
7.  이는 두 대학의 평균키 차이 1.4cm가 우연히 발생하지 않았으며, 
    여기에는 무언가 이유 혹은 원인이 있다고 추정할 수 있다.
  1. t-test의 종류
    1. two-sample t-test / independent t-test
      • 두 개의 독립적인 샘플을 대상으로 두 샘플이 동일한지 아닌지에 대한 분석을 진행
    • 동일한 모집단에서 나왔다면 동일할 것, 서로 다른 모집단에서 나온 것이라면 다를 것이라는 생각에서 출발
    1. One-sample t-test
    • 견본이 주어진 상태에서 가진 데이터(샘플)이 동일한지 분석하기 위해 사용
    1. Paired t-test
    • 반복측정(동일한 대상에 다른시점에 복수로 측정)의 경우 사용
    • 대상은 동일하나 시점이 다른 경우에 사용하는 것으로 보면 편함

정규분포

  1. 정규분포곡선은 평균값을 중심으로 좌우가 대칭적인 곡선 모양이며 양쪽 끝은 0을 향해 가지만 영원히 0에 닿지는 않음
  2. 평균값 μ 와 표준편차 σ 가 있다면 정규분포를 규정할 수 있음
  3. 중요한 Point!
    1. 평균과 표준편차가 다르다면 세상에는 무한대 개의 서로 다른 정규분포가 존재한다
    2. 정규분포곡선 아래의 면적은 확률을 의미한다 → 면적의 합은 1이 됨 (확률의 합은 1이기 때문)
  4. 정규분포곡선의 해석
    평균과 표준편차만으로 데이터의 관찰값의 분포를 알 수 있음
    1. 데이터의 관찰값 중 68.2%는 평균값 ±1× 표준편차 구간 안에 존재함
    2. 데이터의 관찰값 중 95.4%는 평균값 ±2× 표준편차 구간 안에 존재함
    3. 데이터의 관찰값 중 99.7%는 평균값 ±3× 표준편차 구간 안에 존재함
  5. p-value와 정규분포 : p-value는 정규분포곡선의 면적을 의미함
    • 물론 구하려면 면적을 적분해야함...
  6. 표준정규분포 : 평균이 "0" 이고 표준편차가 "1"인 정규분포
    • 가지고 있는 데이터가 정규분포에 근사한다고 가정을 한 후 표준화를 통해 정규분포곡선을 표준정규분포곡선으로 변경
    • 표준화 공식 z−score=x−μσ
    • 예시
      z82=82−825=0

      z90=90−825=1.6
    • 90이란 숫자는 표준정규분포에서 1.6이란 숫자로 표현됨 (z-score가 1.6이라고 표현)
    • 이렇게 구한 z-score를 표준정규분포표에서 찾으면 해당하는 z-score의 확률값을 찾을 수 있음
    • 데이터가 정규분포곡선을 따를 때 표준화를 통해 표준정규분포로 변환한 후 표준정규분포를 통해 모집단에 대한 추정을 하는 것

표본과 모집단

  1. 모집단(population)은 전체 / 표본(sample)은 엄격한 기준에 의해 모집단에서 선별된 집단
    • 표본은 항상 모집단을 대표할 수 있어야 한다
728x90
반응형

'About Statistics' 카테고리의 다른 글

[기초통계] 기술통계 VS 추론통계  (0) 2025.04.05
[데이터분석을 위한 확률과통계] 찐 기초 개념 정리  (0) 2025.01.02
[기초통계] 통알못을 위한 기초통계 1 리뷰 : 분산  (0) 2024.05.14
R2 와 p-value의 관계  (0) 2022.01.11
상관도 측정  (0) 2021.09.28
  1. t-test?
  2. 정규분포
  3. 표본과 모집단
'About Statistics' 카테고리의 다른 글
  • [기초통계] 기술통계 VS 추론통계
  • [데이터분석을 위한 확률과통계] 찐 기초 개념 정리
  • [기초통계] 통알못을 위한 기초통계 1 리뷰 : 분산
  • R2 와 p-value의 관계
M.PS
M.PS
전직 퀘스트 필기노트M.PS 님의 블로그입니다.
  • M.PS
    전직 퀘스트 필기노트
    M.PS
  • 전체
    오늘
    어제
    • 분류 전체보기 (75)
      • About Statistics (8)
      • About Analytics (22)
        • Preprocessing (2)
        • Machine Learning (4)
        • NLP (1)
        • Metrics (0)
        • Time Series (3)
        • Visulalization (1)
        • Analytics Method (6)
        • GA4 (2)
        • Growth Hacking (0)
      • About Dev(Python) (14)
        • Pandas (3)
        • Scipy & Numpy (0)
        • Python comprehension (8)
      • DB (16)
        • DB Design& Construction (4)
        • SQL (12)
      • Linux (0)
      • IT Info for NonMajor (10)
        • K-ICT Online Academy (1)
        • SI Project Tip (1)
      • Side Study (2)
        • Datarian SQL (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    추천시스템
    전처리
    통계분석
    연습
    jupyter lab
    sql
    확률과통계
    EDA
    sql 분석 캠프
    데이터분석
    머신러닝
    데이터리안 분석 캠프
    데이터마이닝
    GIT
    데이터리안
    수학
    실전반
    스케일링
    A/B테스트
    DB
  • 최근 댓글

  • 최근 글

  • 반응형
    250x250
  • hELLO· Designed By정상우.v4.10.3
M.PS
[기초통계] 통알못을 위한 기초통계 1 리뷰 : t-test

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.