본문 바로가기

언어학습/A.I.S.W.

SPSS활용 모집단 평균 추론

반응형

전체 개요: SPSS를 활용한 가설검정

주제: 표본으로부터 모집단의 평균을 추론하고, 가설을 검정하는 통계적 분석 방법을 SPSS를 이용하여 실습.


1. 추론(추정)의 개념

  • 목적: 표본 정보를 바탕으로 모집단의 모수를 유추
  • 방법:
    • 추정(Estimation): 점추정, 구간추정
    • 가설검정(Hypothesis Testing): 설정한 가설을 통계적으로 검토

2. 가설검정의 핵심 요소

🔷 오류의 종류

실제 / 검정결과H₀ 기각 안함H₀ 기각
H₀가 참 (1-α): 정확 α: 제1종 오류
H₀가 거짓 β: 제2종 오류 (1-β): 정확
 
  • 제1종 오류 (α): 사실은 참인데 기각함

제2종 오류 (β): 사실은 거짓인데 기각 못함🔷 유의확률 vs 유의수준

  • 유의확률 (p-value): 표본에서 나온 결과가 나타날 확률
  • 유의수준 (α): 기각 기준 (보통 0.05)

🔷 관계

  • p ≤ α → 귀무가설 기각
  • p > α → 귀무가설 기각 못함 (채택 아님!)

3. 가설검정 절차

  1. 가설 설정:
    • 귀무가설(H₀): 기존 주장
    • 대립가설(H₁): 연구자가 주장하려는 새로운 가설
  2. 유의수준 설정: 보통 α = 0.05
  3. 검정통계량 계산: z, t값 등
  4. p값과 α 비교 후, 기각 여부 판단

4. 검정 유형별 분류

📊 1. 단일 모집단

  • 모분산 알고 있음: 일표본 z검정
  • 모분산 모름: 일표본 t검정

📊 2. 두 모집단 비교

  • 모분산 알고 있음: 이표본 z검정
  • 모분산 모름: 독립표본 t검정
  • 같은 집단 비교: 대응표본 t검정

📊 3. 세 집단 이상 비교

  • 분산분석(ANOVA)
    • 일원분산분석 (One-way ANOVA)
    • 반복측정 ANOVA
    • 이원분산분석 (Two-way ANOVA)

5. SPSS 실습 사례 요약

🎯 사례 1: 단일모집단 평균 검정 (일표본 t검정)

  • 모집단 평균: 58kg
  • 표본: 10명 → 평균: 56kg
  • 결과: t = -0.792, p = 0.449 → 기각 못함

🎯 사례 2: 독립표본 t검정

  • 문과 vs 이과 학생 점수
  • 평균: 문과 76.6, 이과 78.5
  • 결과: p = 0.783 → 귀무가설 기각 못함 (차이 없음)

🎯 사례 3: 대응표본 t검정

  • 식이요법 전후 몸무게 비교
  • 평균: 전 66.5kg, 후 63.5kg
  • 결과: p = 0.017 → 기각 (유의수준 0.05 기준)

🔍 요점 정리

  • 귀무가설은 검정의 기준선: 차이 없다는 주장
  • p-value는 귀무가설 하에 현재 결과가 나올 확률
  • 통계적으로 유의한 차이란, 우연이 아닐 가능성이 높다는 뜻
  • SPSS는 이 과정을 쉽게 시각화하고 계산해줌

 

귀무가설 (Null Hypothesis)이란?

귀무가설은 통계적 가설검정에서 기본 전제로 설정되는 가설입니다. 보통 어떤 효과나 차이가 없다는 진술로 설정되며, 이 가설이 실제로 기각되기 전까지는 옳다고 간주합니다.


핵심 개념 정리

  • 정의: 연구자가 검증하려는 가설(대립가설, H1H_1)과 반대되는 입장으로, "차이가 없다", "효과가 없다", "변화가 없다" 등을 주장하는 가설.
  • 기호: 보통 H0H_0로 표기.
  • 역할: 통계 분석의 기준점 역할. 이를 기준으로 데이터가 충분히 이상한 경우 기각하게 됨.
  • 예시:
    • 약효 시험에서:
      • H0H_0: 신약은 기존 약과 효과의 차이가 없다.
      • H1H_1: 신약은 기존 약보다 효과가 다르다 (크거나 작거나).
    • 교육 실험에서:
      • H0H_0: 새로운 수업 방식은 기존 수업 방식과 성취도 차이가 없다.
      • H1H_1: 새로운 수업 방식이 성취도에 영향을 미친다.

귀무가설의 판단 기준

  • 기각 vs 채택:
    • 기각: 데이터가 귀무가설이 맞을 가능성(p-value)이 작다고 판단되면 기각.
    • 채택 아님: 채택이 아니라 기각하지 못함이라는 표현을 사용. 채택은 그 자체가 맞다고 확신한다는 의미지만, 통계학에서는 그러지 않음.
  • 유의수준(α):
    • 보통 0.05 (5%) 사용.
    • p값이 0.05보다 작으면 → 귀무가설 기각.
    • p값이 0.05보다 크면 → 귀무가설 기각할 증거가 부족하다

95% 안에 들어오면 귀무 가설에 채택됨

 

 

샘플 통계
샘플표본 10개 
추정은 58kg라고 생각했는데
실제는 56kg이 나옴

 

유의확률
p = 0.449
평균오차 -2.0
t = 평균차이/표본오차
 t = -2.0 / 2.5254 = -0.792
알파값(유의수준)=0.05

검정통계량(과거 평균)을 50kg로 가정

유의확률
p = 0.042
평균오차 6
t = 평균차이/표본오차
 t = -2.0 / 2.5254 = 2.376
알파값(유의수준)=0.05

Lower ~ Upper 사이에
'0'이 포함되게 되면 귀무가설 채택
'0'이 포함되지 않으면 귀무가설 기각

문과생 10명 이과생 10명 수집
문과생과 이과생 간 점수차이 검정

귀무가설
"이과생과 문과생 평균은 동일하다."
대립가설
"이과생과 문과생 평균은 다르다."

Lower ~ Upper 사이에
'0'이 포함되게 되므로
"문과와 이과 집단 평균차이가 없다."
따라서 귀무가설 채택

 

Levene의 등분산 검정이란?

Levene의 등분산 검정(Levene's Test)은 두 개 이상의 집단(그룹) 간에 분산이 동일한지(등분산성, homogeneity of variance)를 확인하는 통계적 방법이다. 이 검정은 독립표본 t-검정이나 일원분산분석(ANOVA) 등에서 필수적으로 요구되는 등분산 가정이 실제로 충족되는지 사전에 점검할 때 주로 사용된다1356.

Levene 검정의 주요 특징

  • 정규성 가정 불필요: Bartlett 검정과 달리, Levene 검정은 데이터가 정규분포를 따르지 않아도 사용할 수 있다. 즉, 데이터가 비모수적(nonparametric)이거나 정규성이 약할 때도 신뢰할 수 있다3578.
  • 다수 집단 비교 가능: 두 집단뿐 아니라 세 집단 이상에서도 적용할 수 있다36.
  • 대표값 선택 가능: 집단의 대표값으로 평균(mean), 중앙값(median), 절사평균(trimmed mean) 중 하나를 선택해 검정할 수 있다. 데이터 특성(정규성, 치우침 등)에 따라 적절한 대표값을 선택한다37.

검정 방법 및 해석

가설 설정

  • 귀무가설(H₀): 집단 간 분산이 같다(등분산).
  • 대립가설(H₁): 적어도 두 집단 간 분산이 다르다(이분산).

검정 절차 요약

  1. 각 집단의 데이터와 대표값(평균, 중앙값 등) 간의 차이의 절댓값을 구한다.
  2. 이 절댓값들을 대상으로 일원분산분석(ANOVA)을 실시한다.
  3. 산출된 F 통계량과 p-값(p-value)을 확인한다36.

해석 방법

  • p-값 ≥ 0.05: 귀무가설을 기각할 충분한 증거가 없다. → 등분산 가정이 충족된다.
  • p-값 < 0.05: 귀무가설을 기각. → 집단 간 분산이 다르다고 판단(이분산)258.

실무 적용 예시

  • **독립표본 t-검정**이나 **일원분산분석(ANOVA)**를 실시하기 전에 Levene 검정을 통해 등분산성을 확인한다3410.
  • 만약 등분산성이 충족되지 않는다면, 등분산을 가정하지 않는 검정(Welch t-검정, Welch ANOVA 등)으로 대체한다10.

Levene 검정과 다른 등분산 검정 비교

검정명정규성 가정적용 집단 수대표값 기준특징 및 사용 예시
Levene 검정 필요 없음 2개 이상 평균/중앙값/절사평균 비정규 데이터에도 강건, 대표값 선택 가능
Bartlett 검정 필요함 2개 이상 평균 정규분포 데이터에 적합
F 검정 필요함 2개 평균 두 집단 분산 비교, 정규분포 필요
 

결론

Levene의 등분산 검정은 집단 간 분산이 동일한지 확인하는 데 널리 사용되는 방법으로, 정규성 가정이 필요 없고, 다양한 대표값을 기준으로 할 수 있어 실무에서 매우 유용하다. p-값 해석을 통해 등분산 가정의 충족 여부를 판단할 수 있다

반복측정분산분석
식이요법 참여한 10명 참가자의 몸무게가
식이요법이 몸무게에 유의미하게 영향을 미쳤는지 확인
식이요법 이전 이후 몸무게 데이터 활용

해석

p = 0.017

반응형