본문 바로가기
Multivariate analysis/다변량분석

Hotelling's T-Squared

by 뚜찌지롱 2020. 5. 27.

 

 

 

Hotelling T2는 다변량 자료인 경우 사용하는 모평균 벡터 검정으로 t-test의 확장된 버전이다. 반응변수(Y)가 2개 이상인 자료의 모평균 벡터를 비교하며, 반응치 변수들 간의 공분산을 고려한다는 특징이 있다. 

또한, 여기서 주목해야할 점은 벡터라는 단어가 사용되었다. (이건 개인적으로 개념을 정확히 알고가자는 의미에서 주목하자고 한것임 !)  다변량 자료를 취급하면서 스칼라가 벡터의 개념으로 확장이 되는데 스칼라는 구성인자가 하나인 벡터이고, 벡터는 동일한 유형(numeric, chracter..)의 데이터가 1차원으로 구성되어 있는 구조이다. 글로만 말하면 머릿속에서 그림이 잘 그려지지 않으니깐 데이터의 design을 비교하면서 생각해보자. 

 

 

1. Data

 (1) 일변량의 경우, 데이터 구조는 다음과 같다.       

                      

  weight
1 73
2 62
3 54
.. ..

일변량 데이터는 비교할 변수 Y(변량)가 1개인 데이터이다. 이 자료에서 궁금한 것은 {모집단의 평균 몸무게} = 67(임의값) 일까? 라는 것이다. 따라서, 귀무가설을 $H_0 : \mu=49$ 으로 두고 t-test 검정한다.

 

 

(2) 다변량의 경우, 데이터 구조는 다음과 같다.   

 

  tall weight foot size  
1 166 56 240 -> 공분산고려
2 180 75 280 -> 공분산고려
.. ... .. ... ...

 

 

다변량은 비교할 변수 Y(변량)가 많아졌다는 의미이다. 또한, 다변량의 데이터는 앞서 말했듯이 스칼라가 벡터로 확장된 것이며, 행 하나 하나가 벡터가 된다. 이 자료에서 궁금한 것은 {모집단의 평균 (키, 몸무게, 발 사이즈)} = (170, 66, 255) (->임의값) 일까? 라는 것이다. 그렇다면, 한 가지 의문이 생길 수 있다. 일변량과 마찬가지로 각 변수에 대해 t-test 검정을 3번 하면 되는것 아닌가? 하는 생각이 들지만, Totelling T2은 반응치 변수 간 공분산을 고려(정보를 더 이용)하기 때문에 검정 결과가 약간 다르게 나온다. 공분산은 tall, weight, foot size간의 공분산을 고려한다는 말이다. 

생각해보면 공분산을 고려하는 것은 당연한것 처럼 받아들일 수 있다. 일변량의 데이터에서는 반응변수가 1개이기 때문에 공분산이 존재하지 않는다. 하지만, 다변량의 경우 한 사람에게서 반응변수가 2개 이상이 나오기 때문에 당연히 공분산이 존재한다. 따라서 다변량의 데이터를 다루는 기법들은 공분산을 고려한다는 점 유념하자.

 

 

 

2. 검정통계량(test statistic)

 

(1) [일표본] Hotelling T2의 검정통계량은 일표본 t 검정통계량을 제곱한 형태이다. 

 

$T^2 = (\bar X - \mu_0)^T (\frac{S}{n})^{-1} (\bar X - \mu_0)$

      $= n(\bar X - \mu_0)^TS^{-1}(\bar X - \mu_0)$

      $\approx \frac{(n-1)p}{n-p}F(p,n-p)$ 

 

위 식에서 S는 표본공분산행렬로 $\sum_{j=1}^{n}(X_j-\bar X)(X_j-\bar X)^T / (n-1)$이다. 

 

식의 형태를 보면 마할라노비스 제곱거리와 식이 유사하다는 것을 알 수 있다. 마할라노비스는 다변량 자료의 거리 척도로 검정통계량에서 검정하고자 하는 목적과 일맥상통한다. 또한, Hotelling T2 통계량은 자유도가 p, n-p 인 F분포를 따르게 된다.

 

 

(2) [이표본] Hotelling T2의 검정통계량은 이표본 t 검정통계량을 제곱한 형태이다. 

 

$T^2 = (\bar X_1 - \bar X_2)^T \left [ (\frac{1}{n_1}+\frac{1}{n_2})S_p \right ]^{-1} (\bar X_1 - \bar X_2)$

      $= \frac{n_1n_2}{n_1+n_2}(\bar X_1 - \bar X_2)^T S_p^{-1}(\bar X_1 - \bar X_2)$

      $\approx \frac{(n_1+n_2-1)p}{n_1+n_2-p-1}F(p,n_1+n_2-p-1)$

 

위 식에서 $S_p$는 공통분산(합동공분산행렬)으로 두 집단의 분산이 동일할 경우 사용하며, 동일하지 않다면 각 집단의 편차제곱에 데이터의 수를 나눠 준 값을 사용하면 된다. 또한, Hotelling T2 통계량은 자유도가 p, n-p 인 F분포를 따르게 된다.

댓글