상관분석과 회귀분석, 한 번에 정리하기
오늘은 통계 분석에서 자주 등장하는 상관분석과 회귀분석에 대해 쉽고 명확하게 정리해봅니다. 실제 데이터 예시와 함께, 두 분석법의 차이와 활용법까지 한 번에 이해할 수 있도록 구성했습니다.
상관분석이란 무엇인가?
상관분석(correlation analysis)은 두 변수 간의 선형적 관계가 존재하는지, 그리고 그 관계가 얼마나 강한지를 수치로 나타내는 통계 기법입니다. 예를 들어, 가계 소득과 저축액, 흡연량과 폐암 발병률처럼 서로 관련이 있을 것 같은 두 변수가 있을 때, 이들이 얼마나 함께 변화하는지 파악하는 데 사용합니다1.
- 상관분석의 목적: 두 변수의 선형관계 존재 여부와 그 강도(상관계수)를 측정
- 주의점: 상관분석은 인과관계(원인-결과)를 밝히는 것이 아니며, 단순히 두 변수의 동반 변화를 측정합니다.
상관계수란?
상관계수(r)는 두 변수의 선형적 관련성의 크기를 -1에서 1 사이의 값으로 나타냅니다.
- r=1: 완전한 양의 선형관계 (한 변수가 증가하면 다른 변수도 일정하게 증가)
- r=−1: 완전한 음의 선형관계 (한 변수가 증가하면 다른 변수는 일정하게 감소)
- r=0: 선형관계 없음
상관계수의 절대값 해석 기준은 다음과 같습니다.
0.2 이하 | 거의 없음 |
0.2 ~ 0.4 | 낮은 상관관계 |
0.4 ~ 0.6 | 보통 관계 |
0.6 ~ 0.8 | 높은 상관관계 |
0.8 이상 | 매우 높은 상관관계 |
회귀분석이란 무엇인가?
회귀분석(regression analysis)은 한 변수(종속변수)가 다른 변수(독립변수)에 의해 어떻게 영향을 받는지, 그 관계를 수식(회귀식)으로 나타내는 통계 기법입니다. 즉, 독립변수의 값이 주어졌을 때 종속변수의 값을 예측할 수 있게 해줍니다1.
- 회귀분석의 목적: 변수 간의 영향력 파악, 미래 값 예측, 인과관계 추정
- 예시: 공부시간(독립변수, X)과 성적(종속변수, Y) 사이의 관계를 분석
회귀분석의 유형
- 단순회귀분석: 독립변수 1개, 종속변수 1개
- 예: Y=βX+c
- 다중회귀분석: 독립변수 여러 개, 종속변수 1개
- 예: Y=β1X1+β2X2+⋯+c
회귀분석의 절차
- 산점도를 통해 두 변수의 선형관계 확인
- 최소자승법(MLS)으로 최적의 회귀직선 도출
- 분산분석(ANOVA)으로 회귀모형의 유의성 검정
- t검정으로 독립변수의 영향력 검정
회귀식 예시와 해석
예를 들어, 아래와 같은 회귀식이 도출되었다고 가정합니다.
Y=0.75X+10.195
여기서 기울기 0.75는 공부시간이 1시간 늘어날 때 성적이 평균적으로 0.75점 증가함을 의미합니다. 만약 30시간 공부했다면, 예측 성적은 0.75×30+10.195=32.695점이 됩니다1.
회귀분석의 적합성 판단: 결정계수 R2
- 결정계수(R2)는 회귀식이 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표입니다.
- R2 값이 1에 가까울수록 예측력이 높으며, 0에 가까울수록 예측력이 낮습니다.
정리하며
- 상관분석은 두 변수의 동반 변화(선형관계)만을 측정하며, 인과관계를 밝히지 않습니다.
- 회귀분석은 한 변수가 다른 변수에 미치는 영향력과 예측을 목적으로 하며, 인과관계를 추정할 수 있습니다.
- 두 분석 모두 실제 데이터(엑셀, SPSS 등)로 쉽게 적용할 수 있습니다.
'언어학습 > A.I.S.W.' 카테고리의 다른 글
퍼플렉시티 신규가입자 1년 구독권 무료 배포 (2) | 2025.06.09 |
---|---|
분산분석 part2 (0) | 2025.05.28 |
SPSS_분산분석 (0) | 2025.05.21 |
오렌지3 이미지 분석 방법 (0) | 2025.05.19 |
SPSS활용 모집단 평균 추론 (2) | 2025.05.14 |