본문 바로가기

Multivariate analysis/다변량분석15

행렬의 분해(고윳값 분해, 스펙트럼 분해, 특잇값 분해) 고윳값분해/스펙트럼분해/특잇값분해는 어떤 행렬을 고윳값과 고유벡터를 이용해 다른 형태로 표현하는 것이다. 이를 통해 행렬의 내부 구조를 살펴보거나 행렬을 이용한 연산을 더 효율적으로 할 때 유용하다. (1) 고윳값(eigenvalue), 고유벡터(eigenvector) p x p 정방행렬 A에 대해 $Av=\lambda v$ 를 만족하는 0이 아닌 열벡터 $v$를 고유벡터, 상수 $\lambda$를 고윳값이라고 정의한다. 좀 더 정확한 용어로는 $\lambda$는 '행렬 A의 고윳값' , $v$는 '행렬 A의 $\lambda$에 대한 고유벡터' 이다. 고윳값과 고유벡터는 행렬에 따라 정의되는 값으로서 어떤 행렬은 이러한 고윳값-고유벡터가 존재하지 않을수도 있고 어떤 행렬은 하나만 존재하거나 또는 최대 p.. 2020. 4. 4.
다변량 자료의 분산(일반화분산,총분산) / 선형관계(공분산,상관계수) 1. 일반화분산과 총분산 p-차원 공간에서의 다변량 자료가 평균으로부터 얼마나 퍼져있는가를 나타내는 측도로 일반화분산과 총분산을 소개한다. 두 측도 모두 공분산행렬($\Sigma$ or $S$)로 부터 구해지며, 값이 클수록 퍼진 정도가 크다고 할 수 있다. (1) 일반화분산(generalized variance) : '다면체의 제곱부피' 개념으로 이해. 변수 간에 다중공선성이 있을 때 작은 값을 가진다. 한 변수가 다른 변수들의 선형조합으로 완전히 표현되는 경우 일반화분산=0. (일반화분산) $|\Sigma|$ (표본일반화분산) $|S|$ (2) 총분산(total variance) : 각 변수들의 분산(대각행렬)의 합. 변수들 간의 공분산(비대각 : 상관관계)은 고려하지 않은 측도. 각 변수들의 변동이.. 2020. 4. 1.
거리 측도(유클리드, 맨하탄, 표준화, 마할노비스) 군집분석(cluster analysis)과 다차원척도법(multidimensional scaling) 등의 다변량 분석에서 거리의 개념은 매우 중요하다. 거리 측도는 데이터와 데이터간 (비)유사성을 보는 군집분석뿐만 아니라 변수와 변수간 관계를 보는 다변량 통계 분석에서도 기본기가 되는 중요한 내용이므로 숙지하길 바란다. p-차원 공간의 두 점 $X_r = (X_r1,X_r2,\cdots,X_rp)$과 $X_s = (X_s1,X_s2,\cdots,X_sp)^T$ 간의 거리(distance) 또는 비유사성(dissimilarity)은 다음과 같이 정의된다. - 유클리드(Euclidean) 거리 : 두 점 사이의 거리를 계산할 때 흔히 쓰이는 방법이다. 최단거리(초록색)라고 생각하면 됨. 민코우스키 거리에서.. 2020. 4. 1.