상관검정의 귀무가설은 입니다. 귀무가설을 검정하기 위한 통계량은 다음과 같이 표현할 수 있습니다.
이 통계량이 어떻게 유도되는지를 설명하겠습니다.
세팅: 상관검정 ↔ 회귀계수 검정¶
표본 ()이 모상관계수 ()를 가지는 이변량 정규분포에서 나왔다고 가정합니다.
상관검정에서 자주 쓰는 귀무가설은
이고, 이때는 조건부분포 (Y|X)가
인 단순선형회귀모형과 동치가 됩니다.
게다가
이므로
“상관검정 = 단순회귀에서 기울기 (\beta_1)에 대한 t-검정” 으로 바꿔 생각할 수 있습니다.
2. 표본 통계량 정리¶
표본에서 중심화한 제곱합/곱을
로 두면, 표본 상관계수는
단순회귀 (Y) on (X) 의 OLS 추정치는
잔차제곱합(SSE)은
인데, (\hat\beta_1 = S_{xy}/S_{xx}) 를 대입하면
이제 (S_{xy})를 (r)과 (S_{xx}, S_{yy})로 표현하면
따라서
이므로
그리고 잔차분산의 불편추정량은
3. 회귀계수에 대한 t-검정 통계량¶
단순회귀에서 기울기 (\beta_1)의 표준오차는
귀무가설 () 에 대한 t-검정 통계량은
[
t = \frac{\hat\beta_1 - 0}{\operatorname{SE}(\hat\beta_1)}
= \frac{\hat\beta_1}{s/\sqrt{S_{xx}}}
= \frac{\hat\beta_1\sqrt{S_{xx}}}{s}
]
여기에 (\hat\beta_1 = S_{xy}/S_{xx}) 를 대입하면
[
t = \frac{S_{xy}}{S_{xx}} \cdot \frac{\sqrt{S_{xx}}}{s}
= \frac{S_{xy}}{\sqrt{S_{xx}},s}
]
이제 (s^2)와 (S_{xy})를 앞에서 구한 식으로 치환합니다.
(s^2 = \dfrac{S_{yy}(1-r^2)}{n-2}) → (s=\sqrt{\dfrac{S_{yy}(1-r^2)}{n-2}})
(S_{xy} = r\sqrt{S_{xx}S_{yy}})
따라서
[
t
= \frac{r\sqrt{S_{xx}S_{yy}}}{\sqrt{S_{xx}}\sqrt{\dfrac{S_{yy}(1-r^2)}{n-2}}}
= \frac{r\sqrt{S_{xx}S_{yy}}}{\sqrt{S_{xx}}\sqrt{S_{yy}}\sqrt{\dfrac{1-r^2}{n-2}}}
]
분자·분모에서 (\sqrt{S_{xx}}), (\sqrt{S_{yy}}) 가 약분되어
[
t
= \frac{r}{\sqrt{\dfrac{1-r^2}{n-2}}}
= \frac{r\sqrt{n-2}}{\sqrt{1-r^2}}
]
을 얻습니다. 이것이 상관검정에서 사용하는 t-검정통계량입니다.
4. 분포: 왜 t 분포를 따르나?¶
이제 “왜 t 분포인가?” 부분은 회귀이론으로 설명합니다.
이변량 정규분포 가정 + (H_0:\rho=0) 아래에서
(\hat\beta_1)은 정규분포를 따르고,((n-2)s2/\sigma2 = \text{SSE}/\sigma^2)는 자유도 (n-2)인 (\chi^2) 분포를 따르며,
(\hat\beta_1)과 (s^2)는 서로 독립입니다.
그래서
[
t = \frac{\hat\beta_1/\operatorname{SD}(\hat\beta_1)}{\sqrt{s2/\sigma2}}
]
꼴이 되어, 전형적인
[
\frac{Z}{\sqrt{V/(n-2)}} \quad (Z\sim N(0,1), V\sim \chi^2_{n-2}, Z\perp V)
]
형태가 되고, 따라서
[
t \sim t_{n-2}
]
가 됩니다.
정리하면,
상관검정 (H_0:\rho=0)을 단순회귀에서 기울기 검정으로 바꿔 생각하고,
회귀계수 (\hat\beta_1)의 t-통계량을 (r)로 다시 표현한 결과가
[
t = \dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}
]
로 나온다 — 라는 흐름입니다.
필요하면, (\rho \neq 0)인 일반 (H_0:\rho=\rho_0) 에 대한 검정통계량(변형된 t 혹은 Fisher z 변환)도 유도 과정까지 같이 풀어줄게요.