Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

상관검정 통계량 유도

Q's Laboratory

상관검정의 귀무가설은 H0:ρ=0H_0:\rho=0입니다. 귀무가설을 검정하기 위한 통계량은 다음과 같이 표현할 수 있습니다.

t=rn21r2t = \dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}

이 통계량이 어떻게 유도되는지를 설명하겠습니다.

세팅: 상관검정 ↔ 회귀계수 검정

표본 (Xi,YiX_i, Y_i)이 모상관계수 (ρ\rho)를 가지는 이변량 정규분포에서 나왔다고 가정합니다.

상관검정에서 자주 쓰는 귀무가설은

H0:ρ=0H_0:\rho = 0


이고, 이때는 조건부분포 (Y|X)가

Yi=β0+β1Xi+εi,εiN(0,σ2), 독립Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i,\quad \varepsilon_i \sim N(0,\sigma^2), \text{ 독립}

단순선형회귀모형과 동치가 됩니다.
게다가

H0:ρ=0H0:β1=0H_0:\rho=0 \quad \Longleftrightarrow \quad H_0:\beta_1 = 0


이므로

“상관검정 = 단순회귀에서 기울기 (\beta_1)에 대한 t-검정” 으로 바꿔 생각할 수 있습니다.


2. 표본 통계량 정리

표본에서 중심화한 제곱합/곱을

Sxx=i=1n(XiXˉ)2,Syy=i=1n(YiYˉ)2,Sxy=i=1n(XiXˉ)(YiYˉ)S_{xx} = \sum_{i=1}^n (X_i-\bar X)^2,\quad S_{yy} = \sum_{i=1}^n (Y_i-\bar Y)^2,\quad S_{xy} = \sum_{i=1}^n (X_i-\bar X)(Y_i-\bar Y)


로 두면, 표본 상관계수

r=SxySxxSyyr = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}

단순회귀 (Y) on (X) 의 OLS 추정치는

β^1=SxySxx,β^0=Yˉβ^1Xˉ\hat\beta_1 = \frac{S_{xy}}{S_{xx}},\quad \hat\beta_0 = \bar Y - \hat\beta_1 \bar X

잔차제곱합(SSE)은

SSE=i=1nε^i2=Syyβ^1Sxy\text{SSE} = \sum_{i=1}^n \hat\varepsilon_i^2 = S_{yy} - \hat\beta_1 S_{xy}


인데, (\hat\beta_1 = S_{xy}/S_{xx}) 를 대입하면

SSE=SyySxy2Sxx\text{SSE} = S_{yy} - \frac{S_{xy}^2}{S_{xx}}

이제 (S_{xy})를 (r)과 (S_{xx}, S_{yy})로 표현하면

Sxy=rSxxSyyS_{xy} = r\sqrt{S_{xx}S_{yy}}


따라서

Sxy2Sxx=r2SxxSyySxx=r2Syy\frac{S_{xy}^2}{S_{xx}} = \frac{r^2 S_{xx}S_{yy}}{S_{xx}} = r^2 S_{yy}


이므로

SSE=Syyr2Syy=Syy(1r2)\text{SSE} = S_{yy} - r^2 S_{yy} = S_{yy}(1-r^2)

그리고 잔차분산의 불편추정량은

s2=SSEn2=Syy(1r2)n2s^2 = \frac{\text{SSE}}{n-2} = \frac{S_{yy}(1-r^2)}{n-2}

3. 회귀계수에 대한 t-검정 통계량

단순회귀에서 기울기 (\beta_1)의 표준오차는

SE(β^1)=sSxx\operatorname{SE}(\hat\beta_1) = \frac{s}{\sqrt{S_{xx}}}

귀무가설 (H0:β1=0H_0:\beta_1=0) 에 대한 t-검정 통계량은
[
t = \frac{\hat\beta_1 - 0}{\operatorname{SE}(\hat\beta_1)}
= \frac{\hat\beta_1}{s/\sqrt{S_{xx}}}
= \frac{\hat\beta_1\sqrt{S_{xx}}}{s}
]

여기에 (\hat\beta_1 = S_{xy}/S_{xx}) 를 대입하면
[
t = \frac{S_{xy}}{S_{xx}} \cdot \frac{\sqrt{S_{xx}}}{s}
= \frac{S_{xy}}{\sqrt{S_{xx}},s}
]

이제 (s^2)와 (S_{xy})를 앞에서 구한 식으로 치환합니다.

따라서
[
t
= \frac{r\sqrt{S_{xx}S_{yy}}}{\sqrt{S_{xx}}\sqrt{\dfrac{S_{yy}(1-r^2)}{n-2}}}
= \frac{r\sqrt{S_{xx}S_{yy}}}{\sqrt{S_{xx}}\sqrt{S_{yy}}\sqrt{\dfrac{1-r^2}{n-2}}}
]

분자·분모에서 (\sqrt{S_{xx}}), (\sqrt{S_{yy}}) 가 약분되어
[
t
= \frac{r}{\sqrt{\dfrac{1-r^2}{n-2}}}
= \frac{r\sqrt{n-2}}{\sqrt{1-r^2}}
]
을 얻습니다. 이것이 상관검정에서 사용하는 t-검정통계량입니다.


4. 분포: 왜 t 분포를 따르나?

이제 “왜 t 분포인가?” 부분은 회귀이론으로 설명합니다.

그래서
[
t = \frac{\hat\beta_1/\operatorname{SD}(\hat\beta_1)}{\sqrt{s2/\sigma2}}
]
꼴이 되어, 전형적인
[
\frac{Z}{\sqrt{V/(n-2)}} \quad (Z\sim N(0,1), V\sim \chi^2_{n-2}, Z\perp V)
]
형태가 되고, 따라서
[
t \sim t_{n-2}
]
가 됩니다.


정리하면,

  1. 상관검정 (H_0:\rho=0)을 단순회귀에서 기울기 검정으로 바꿔 생각하고,

  2. 회귀계수 (\hat\beta_1)의 t-통계량을 (r)로 다시 표현한 결과가
    [
    t = \dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}
    ]
    로 나온다 — 라는 흐름입니다.

필요하면, (\rho \neq 0)인 일반 (H_0:\rho=\rho_0) 에 대한 검정통계량(변형된 t 혹은 Fisher z 변환)도 유도 과정까지 같이 풀어줄게요.