본문 바로가기
Multivariate analysis/다변량분석

다변량 자료의 분산(일반화분산,총분산) / 선형관계(공분산,상관계수)

by 뚜찌지롱 2020. 4. 1.

 

1. 일반화분산과 총분산

 

p-차원 공간에서의 다변량 자료가 평균으로부터 얼마나 퍼져있는가를 나타내는 측도로 일반화분산과 총분산을 소개한다. 두 측도 모두 공분산행렬($\Sigma$ or $S$)로 부터 구해지며, 값이 클수록 퍼진 정도가 크다고 할 수 있다. 

 

(1) 일반화분산(generalized variance) : '다면체의 제곱부피' 개념으로 이해. 변수 간에 다중공선성이 있을 때 작은 값을 가진다. 한 변수가 다른 변수들의 선형조합으로 완전히 표현되는 경우 일반화분산=0.

 

(일반화분산) $|\Sigma|$

(표본일반화분산) $|S|$

 

(2) 총분산(total variance) : 각 변수들의 분산(대각행렬)의 합. 변수들 간의 공분산(비대각 : 상관관계)은 고려하지 않은 측도. 각 변수들의 변동이 적을수록 작은 값을 나타낸다.

 

(총분산)  $tr(\Sigma) = \sum_{i=1}^{p}\sigma_i.^2$

(표본총분산) $tr(S) = \sum_{i=1}^{p}S_i^2$

 

 

2. 공분산과 상관계수

 

p-차원의 확률벡터를 $X=(X_1,X_2,\cdots,X_p)^T$라고 하고, X의 평균을 $\mu=(\mu_1,\mu_2,\cdots,\mu_p)^T$ 라고 하자. 

두 변수 $X_i$와 $X_j$의 선형관계의 정도를 나타내는 양으로 공분산과 상관계수가 있다.

 

(1) 공분산(corvariance)

(공분산) $\sigma_{ij}$ = $Cov(X_i,X_j)$=$E(X_i-\mu_i)(X_j-\mu_j)$

 

여기서 $\mu_i=E(X_i),\mu_j=E(X_j)$이다. 이때 $X_i$의 분산은 $\sigma_i^2=Var(X_i)=E(X_i-\mu_i)^2$

 

$\sigma_{ij}$를 (i,j)번째 원소로 갖는 X의 공분산행렬 $\Sigma$는 다음과 같이 정의된다. 

 

                                        (공분산행렬) $\Sigma$ = $(\sigma_{ij})_{p*p}$ = $E(X-\mu)(X-\mu)^T$

 

공분산은 중심화된 변수 간의 곱의 기댓값이다. $X_i$와 $X_j$가 그들의 평균으로부터 동시에 커지거나 작아지는 경향이 강할수록 양의 큰값을 가지며, tradeoff 현상이 강할 수록 음의 큰 값을 가진다. 하지만 공분산의 크기는 변수의 단위에 영향을 많이 받아 두 변수간의 상관관계가 얼마나 큰지(선형관계 정도) 제대로 반영하지 못한다. 부호만 의미있음.
따라서 표준화된 변수 간의 공분산을 다음과 같이 상관계수로 정의한다.

 

(2) 상관계수(correlation coefficient)

 

                                             (상관계수) $\rho_{ij}=\frac{\sigma_{ij}}{\sigma_i\sigma_j}$

 

이를 (i,j)번째 원소로 갖는 상관행렬 $\rho$는 다음과 같이 정의된다.

 

                                            (상관행렬) $\rho =(\rho_{ij})_{p*p}=D^{-1/2}\Sigma D^{-1/2}$

 

여기서 $D^{1/2}=diag(1/\sigma_1,\cdots,1/\sigma_p)$이고, $\sigma_i=\sqrt{\sigma_{ii}}$이다. 상관행렬의 대각원소는 모두 1이다.

 

지금까지의 수식은 모집단 버전이라고 생각하면 된다. 이 후에는 똑같은 개념에서 다변량 표본 버전을 생각해보자.

 

 

(3) 표본공분산

 

p-차원의 다변량 확률표본을 $X_1,X_2,\cdots,X_n$이라고 하자. 이 때 $X_i=(X_{i1},X_{i2},\cdots,X_{ip})^T$이다.

 

                              (표본공분산)$S_{ij}$ = $\frac{1}{n-1}\sum_{r=1}^{n}(X_{ri}-\bar{X_i})(X_{rj}-\bar{X_j})$

 

$S_{ij}$를 (i,j)번째 원소로 갖는 X의 표본공분산행렬 $S$는 다음과 같이 정의된다. 

 

                            (표본공분산행렬) $S \equiv (\sigma_{ij})_{p*p}$ = $\frac{1}{n-1}\sum_{r=1}^{n}(X_{i}-\bar{X})(X_{j}-\bar{X})^T$

여기서 $\bar{X} = \sum_{i=1}^{n} X_i/n$은 관측값의 평균벡터이다.

 

(3) 표본상관계수

 

                                                   (상관계수) $r_{ij}=\frac{S_{ij}}{S_i S_j}$

                                                   (상관행렬) $R =(R_{ij})_{p*p}=D^{-1/2}S D^{-1/2}$

 

여기서 $D^{1/2}=diag(1/S_1,\cdots,1/S_p)$이고, $S_i=\sqrt{S_ii}$이다. 상관행렬의 대각원소는 모두 1이다.

 

 

 

댓글