본문 바로가기
Multivariate analysis/다변량분석

대응분석(Correspondence Analysis, CA)

by 뚜찌지롱 2021. 3. 21.

 

두 범주형 변수 간의 연관성은 흔히 열별 혹은 행별 동질성 검정 혹은 독립성 검정 등 소위 카이제곱 검정을 통해 살펴본다. 그러나 카이제곱 검정은 두 범주형 변수의 연관성 여부를 결정하는 것이며, 구체적으로 두 변수가 가지고 있는 범주들 사이의 관계를 살펴볼 수는 없다. 이러한 문제점을 해결해 주는 통계적 기법이 바로 대응분석이다.

 

1. 대응 분석

 

대응분석은 다변량 범주형 자료를 대상으로 하는 탐색적 자료분석이다. 이변량($X_1, X_2$)의 경우 단순대응분석이라고 하며 분할표의 정보를 저차원의 공간에 시각화하여 두 범주형 변수의 상관관계를 파악할 수 있다. 다중대응분석(Multiple CA)은 단순대응분석(2차원 분할표에 대해 적용)을 범주형 변수가 여러 개인 경우로 확장한 분석이다. 이 외에도 고차원의 데이터를 저차원으로 축소하여 시각화하는 방법에는 주성분, 요인, 다차원척도법 등이 있다. 정리하면, 대응분석은 변수 간 상관관계 정보뿐만 아니라 변수가 갖는 범주들이 어떤 패턴으로 관련되어 있는지 알 수 있는 강점이 있다.  

 

 

 

(1) 대응분석                                                                                                                         

 

다중 대응분석은 단순 대응분석의 확장이므로 단순 대응분석을 예시로 들어 설명할 것이다. 

단순 대응분석은 이변량 범주형 자료에 의해 형성된 분할표를 기반으로 행 범주와 열 범주를 나타내는 좌표(coordinates)를 유도하여 2차원에 맵핑하고, 범주들 간의 연관 패턴을 그림으로 나타내는 방법이다. 행/열 범주를 나타내는 좌표축은 연속형 자료에 대한 PCA 분석에서 주성분과 유사한 의미를 가진다. 

 

 

위의 왼쪽 그림이 단순 CA를 수행한 결과를 시각화한 것으로, 범주들이 서로 가까이 위치할수록 유사도가 높다고 할 수 있다. 이때, 주의해야할 것은 그래프가 대칭 biplot의 경우 행간 또는 열간 사이의 거리만 유의미하게 해석되며 행과 열 사이의 거리는 유의미하지 않아 대략적인 관계만 파악할 수 있다(각 행 범주와 열 범주가 어느 한 쪽의 기준에 맞게 좌표가 변환된것이 아니므로 비교할 수 없다). 따라서, 행과 열사이의 거리를 유의미하게 해석하기 위해서는 비대칭 biplot을 이용해야한다. 

 

 

(2) 알고리즘                                                                                                                            

 

알고리즘이 수행되는 절차를 간단히 설명하면 다음과 같다.

 

(step 1)  

 

직위에 대한 범주형변수(SM, JM, SE, JE, SC)와 흡연습관에 대한 범주형변수(None, Light, Medium, Heavy)가 분할표로 나타나 있다. 본 자료에 대해서는 직위와 흡연습관이 관련에 대해 분석하고자 하는 것이 목적이다. 

 

 

(step 2)

 

 

분할표에 대해 행과 열의 profile을 구한다. 프로파일은 백분율(percentage)로 생각하면 된다.  백분율로 변환하는 작업은 직위에 따른 흡연 습관의 패턴을 파악하기 쉽게 만들기 위함이다. 

 

 

(step 3) 

 

행 프로파일과 열 프로파일은 3차원 이상이므로 시각화를 통해 표현하기에는 한계가 있으며 표현한다 하더라도 관점에 따라 해석이 달라질 수 있어 어려움이 존재한다. 따라서, 주성분 분석을 통해 원 자료의 변동을 최대로하는 차원 축을 찾아 범주를 맵핑한다. 위의 예시의 경우 제1주성분과 제2주성분만 이용해도 원데이터의 99.51%의 변동을 설명할 수 있다.(0.5%의 손실이 발생) 따라서, CA 분석을 통해 표현한 패턴이 n차원 공간에서 나타내는 패턴을 거의 설명한다고 할 수 있다. 

 

- Eigenvalue : 고윳값은 차원이 가진 (상대적인) 변동을 의미하며, 값이 클수록 해당 주성분이 중요한 역할임을 의미한다. 

- Individual and Cumulative Percents : Individual은 해당 차원의 고윳값을 전체 고윳값으로 나눈 것이며, 전체 변동에 대해 각 축의 설명력이라고 생각할 수 있다. Cumulative는 누적 합계이다.

 

+ 대응분석은 행프로파일(row profile) 정보와 카이제곱거리(chi-square distance)를 이용한다는 점에서 유클리디안 거리(euclidean distance)를 이용하는 주성분분석과는 차이가 있다. 생태통계학에서 카이제곱거리는, 대부분의 장소에서 출현빈도가 낮은 특정한 종이 어느 특정 장소에서 집중적으로 관찰되었다면, 해당 종의 관찰(혹은 발현)이 매우 드문 현상임에도 불구하고 특정 장소에서 많이 관찰되었기에 그 장소에 더 높은 가중치를 준다는 의미를 지니고 있다.

 

 

(step 4) 

 

 이는 직위(행 프로파일)에 대한 분석결과이다. (열 프로파일에 대한 결과도 얻을 수 있음)

 

- Axis1, Axis2 : 주성분 축을 의미한다. 

- Quality :  제1축과 2축의 COR 값의 합으로 나타나며, 프로파일에서 변동의 비율을 의미한다.

               ex) Quality(SM) = 0.893 = 0.092 + 0.800)

- Mass : 전체 테이블에서 해당 범주가 가지는 비율을 의미한다. ex) Mass(SM) = 11/193 = 0/57

- Inertia : 전체 테이블에 대한 관성(카이제곱 통계량/N)에서 해당 프로파일로 인한 관성의 비율이다. 관성의 또 다른 해석은 프로파일과 평균 프로파일 사이의 카이제곱 거리의 가중 평균으로 데이터 행렬의 전체 분산은 관성을 통해 측정된다. 

- Factor : 축에 대한 해당 범주의 좌표(coordinate)이다.

- COR : 프로파일과 축사이의 상관관계(correlation)를 의미하며, 어떤 축이 해당 프로파일을 잘 나타내는지 알 수 있다. 

           ex) SM의 경우 1축보다 2축과 상관성이 높으며 2축에서 SM을 잘 표현하였다.

- CTR : 프로파일이 축에 기여한 정도(contribution)를 나타내며, 프로파일에 의해 설명된 축에서 변동의 비율이다. 

 

 

(step 5) 

 

 위 그림은 CA 분석의 주요한 결과물로, 행 프로파일과 열 프로파일을 각각 따로 그린 것이다. 각 점은 2차원상으로 사영시킨 프로파일이다.

 먼저 왼쪽 그림을 해석해보면, 사영된 열 프로파일은 각 지위 범주에 속하는 비율을 나타낸다. None(담배를 피지 않음) 은 다른 범주와 멀리 떨어져 있을 것을 볼 수 있고, Light(담배를 조금 핌) 는 Medium, Heavy 범주와 비교적 가까이 있음을 알 수 있다. 이로 인해 담배를 피는 사람과 안피는 사람의 범주가 나뉘는 것을 볼 수 있다. 

 오른쪽그림은 마찬가지로 5개의 직위 프로파일을 2차원에 사영시킨 것이다. 첫번째 축의 0을 기준으로 봤을 때 Junior와 Senior로 나뉘어짐을 알 수 있고 두번째 축을 기준으로 봤을 때 아래쪽은 Manager, 위쪽은 Non-manager 임을 알 수 있다. 

그림에서 행간/열간 프로파일 사이 거리는 카이제곱 거리이며, 프로파일이 가까이 위치할수록 그들간의 패턴이 비슷하다. 

 

 

 

 

 

 

 

 

 

 

 

 

 

참고문헌 

Correspondence_Analysis.pdf

www.sangji.ac.kr/prog/bbsArticle/BBSMSTR_000000002501/list.do 5장. 대응분석 Correspondence Analysis  

 

댓글