본문 바로가기
Multivariate analysis/다변량분석

거리 측도(유클리드, 맨하탄, 표준화, 마할노비스)

by 뚜찌지롱 2020. 4. 1.

 

군집분석(cluster analysis)과 다차원척도법(multidimensional scaling) 등의 다변량 분석에서 거리의 개념은 매우 중요하다. 거리 측도는 데이터와 데이터간 (비)유사성을 보는 군집분석뿐만 아니라 변수와 변수간 관계를 보는 다변량 통계 분석에서도 기본기가 되는 중요한 내용이므로 숙지하길 바란다. 

 


p-차원 공간의 두 점 $X_r = (X_r1,X_r2,\cdots,X_rp)$과 $X_s = (X_s1,X_s2,\cdots,X_sp)^T$ 간의 거리(distance) 또는 비유사성(dissimilarity)은 다음과 같이 정의된다. 

 

 

 

유클리드거리, 맨하탄거리

- 유클리드(Euclidean) 거리 : 두 점 사이의 거리를 계산할 때 흔히 쓰이는 방법이다. 최단거리(초록색)라고 생각하면 됨. 민코우스키 거리에서 r=2인 경우.

 

$[(X_r - X_s)^T(X_r - X_s)]^{1/2} = \left[\sum_{i=1}^p (X_{ri}-X_{si})^2 \right]^{1/2}$

 

- 맨하탄거리(Manhattan) 거리 : 유클리드 거리보다 현실적인 거리라고 생각할 수 있다. 좌표가 아닌 도시라고 생각했을 때, 건물이 위 모양처럼 있을 경우 가장 가까운거리는 파란색,노란색,빨간색 선들이다. 이것이 바로 맨하탄거리이다. 민코우스키 거리에서 r=1인 경우.

 

 

- 민코우스키(Minkowski) 거리 : 유클리드 거리, 맨하탄 거리를 일반화한 거리이다.

 

 

- 표준화 거리 : 두 점이 단위가 다를 때, 산포가 큰 특정 변수의 영향을 줄이기 위해 각 변수의 분산으로 나누어 표준화한 값들의 유클리드 거리이다. 이 거리는 각 변수의 분산을 고려한 통계적 거리이다.

 

 

-마할라노비스(Mahalanobis) 거리 : 각 변수의 분산과 공분산(상관성)구조를 함께 고려한 통계적 거리이다. 유클리드 거리로 생각해보면 중심-점1의 거리가 점2의 거리보다 가깝다. 하지만 마할라노비스 거리는 변수들의 상관관계가 거리에 영향을 미친다. 확률등고선을 보면 중심점으로부터의 관측될 가능성이 더 높은 점2와의 거리와 더 가깝다고 생각한다.

 

$[(X_r - X_s)^TS^{-1}(X_r - X_s)]^{1/2}$

 

마할라노비스 거리

      

 

 

이외에도 더 많은 거리측도 있으나 필요할 때마다 추가하도록 할 것이다. 

 

 

 

 

 

 

 

 

 

 

출처 :

https://godongyoung.github.io/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D/2019/02/11/Mahalanobis-and-MCD.html

https://rfriend.tistory.com/199

댓글