1. 일반화분산과 총분산
p-차원 공간에서의 다변량 자료가 평균으로부터 얼마나 퍼져있는가를 나타내는 측도로 일반화분산과 총분산을 소개한다. 두 측도 모두 공분산행렬($\Sigma$ or $S$)로 부터 구해지며, 값이 클수록 퍼진 정도가 크다고 할 수 있다.
(1) 일반화분산(generalized variance) : '다면체의 제곱부피' 개념으로 이해. 변수 간에 다중공선성이 있을 때 작은 값을 가진다. 한 변수가 다른 변수들의 선형조합으로 완전히 표현되는 경우 일반화분산=0.
(일반화분산) $|\Sigma|$
(표본일반화분산) $|S|$
(2) 총분산(total variance) : 각 변수들의 분산(대각행렬)의 합. 변수들 간의 공분산(비대각 : 상관관계)은 고려하지 않은 측도. 각 변수들의 변동이 적을수록 작은 값을 나타낸다.
(총분산) $tr(\Sigma) = \sum_{i=1}^{p}\sigma_i.^2$
(표본총분산) $tr(S) = \sum_{i=1}^{p}S_i^2$
2. 공분산과 상관계수
p-차원의 확률벡터를 $X=(X_1,X_2,\cdots,X_p)^T$라고 하고, X의 평균을 $\mu=(\mu_1,\mu_2,\cdots,\mu_p)^T$ 라고 하자.
두 변수 $X_i$와 $X_j$의 선형관계의 정도를 나타내는 양으로 공분산과 상관계수가 있다.
(1) 공분산(corvariance)
(공분산) $\sigma_{ij}$ = $Cov(X_i,X_j)$=$E(X_i-\mu_i)(X_j-\mu_j)$
여기서 $\mu_i=E(X_i),\mu_j=E(X_j)$이다. 이때 $X_i$의 분산은 $\sigma_i^2=Var(X_i)=E(X_i-\mu_i)^2$
$\sigma_{ij}$를 (i,j)번째 원소로 갖는 X의 공분산행렬 $\Sigma$는 다음과 같이 정의된다.
(공분산행렬) $\Sigma$ = $(\sigma_{ij})_{p*p}$ = $E(X-\mu)(X-\mu)^T$
공분산은 중심화된 변수 간의 곱의 기댓값이다. $X_i$와 $X_j$가 그들의 평균으로부터 동시에 커지거나 작아지는 경향이 강할수록 양의 큰값을 가지며, tradeoff 현상이 강할 수록 음의 큰 값을 가진다. 하지만 공분산의 크기는 변수의 단위에 영향을 많이 받아 두 변수간의 상관관계가 얼마나 큰지(선형관계 정도) 제대로 반영하지 못한다. 부호만 의미있음.
따라서 표준화된 변수 간의 공분산을 다음과 같이 상관계수로 정의한다.
(2) 상관계수(correlation coefficient)
(상관계수) $\rho_{ij}=\frac{\sigma_{ij}}{\sigma_i\sigma_j}$
이를 (i,j)번째 원소로 갖는 상관행렬 $\rho$는 다음과 같이 정의된다.
(상관행렬) $\rho =(\rho_{ij})_{p*p}=D^{-1/2}\Sigma D^{-1/2}$
여기서 $D^{1/2}=diag(1/\sigma_1,\cdots,1/\sigma_p)$이고, $\sigma_i=\sqrt{\sigma_{ii}}$이다. 상관행렬의 대각원소는 모두 1이다.
지금까지의 수식은 모집단 버전이라고 생각하면 된다. 이 후에는 똑같은 개념에서 다변량 표본 버전을 생각해보자.
(3) 표본공분산
p-차원의 다변량 확률표본을 $X_1,X_2,\cdots,X_n$이라고 하자. 이 때 $X_i=(X_{i1},X_{i2},\cdots,X_{ip})^T$이다.
(표본공분산)$S_{ij}$ = $\frac{1}{n-1}\sum_{r=1}^{n}(X_{ri}-\bar{X_i})(X_{rj}-\bar{X_j})$
$S_{ij}$를 (i,j)번째 원소로 갖는 X의 표본공분산행렬 $S$는 다음과 같이 정의된다.
(표본공분산행렬) $S \equiv (\sigma_{ij})_{p*p}$ = $\frac{1}{n-1}\sum_{r=1}^{n}(X_{i}-\bar{X})(X_{j}-\bar{X})^T$
여기서 $\bar{X} = \sum_{i=1}^{n} X_i/n$은 관측값의 평균벡터이다.
(3) 표본상관계수
(상관계수) $r_{ij}=\frac{S_{ij}}{S_i S_j}$
(상관행렬) $R =(R_{ij})_{p*p}=D^{-1/2}S D^{-1/2}$
여기서 $D^{1/2}=diag(1/S_1,\cdots,1/S_p)$이고, $S_i=\sqrt{S_ii}$이다. 상관행렬의 대각원소는 모두 1이다.
'Multivariate analysis > 다변량분석' 카테고리의 다른 글
Hotelling's T-Squared (0) | 2020.05.27 |
---|---|
ANOVA(분산분석), MANOVA(다변량분산분석) (0) | 2020.05.08 |
마할라노비스 제곱거리와 카이제곱분포을 통한 다변량 이상치 탐색 (0) | 2020.04.16 |
행렬의 분해(고윳값 분해, 스펙트럼 분해, 특잇값 분해) (0) | 2020.04.04 |
거리 측도(유클리드, 맨하탄, 표준화, 마할노비스) (0) | 2020.04.01 |
댓글