본문 바로가기
Multivariate analysis/다변량분석

정준대응분석(Canonical Correspondence analysis, CCA)과 부분 PCCA

by 뚜찌지롱 2021. 3. 29.

생태학(ecology)분야에서 많이 활용되는 분석으로 정준대응분석과 중복분석이 있다. 두 분석은 모두 제약분석에 속한다. 제약분석(constrained analysis)은 직접변화도분석(direct gradient analysis)의 한 형태이다. 직접변화도분석은 데이터 테이블의 변동을 (직접(directly) 대응되는 테이블에 저장된) 설명변수 집합(예 : 환경 변수)의 변동을 통해 설명하는 방법을 말한다. 

 

 

1. 정준대응분석

 

정준대응분석은 설명변수를 가지는 대응분석으로 생각할 수 있다. 생태학 분야에서 많이 사용되는 분석이니 해당 도메인 바탕의 예시를 들면, 종-발현 정보(Y)(=분할표, 장소별(행) 동물 종(열)의 빈도)가 존재하고 해당 장소의 환경정보(X)(=장소에 대한 추가적인 정보를 가지는 행렬)가 주어질 때 종의 발현 빈도에 미치는 환경 변수의 영향을 분석하기 위해 사용되는 대응분석의 일종이다. CA의 해를 계산하는 과정에 설명변수(환경변수) 행렬이 개입되어, 설명변수(환경변수)의 행렬에 의해 설명될 수 있는 대응만이 최종 결과에 표현된다. 따라서, 정준대응분석에서는 총 2개의 행렬이 필요하다. 

 

- 관측값 행렬(Y) : 연구된 각 장소에서 종(species)의 양(abundance), 분할표 자료, community composition

- 변화도(gradient) 행렬(X) : 각 연구 장소에서 토양의 질소와 같은 환경변수의 측정치, 공변량 자료, environmental factor

 

서열화 성능은 대응분석에 비해 다소 떨어지지만 종 및 장소를 환경변수와 같이 나타낼 수 있어서 자료해석이 용이하다는 장점이 지니고 있다. 여기서 서열화 성능이란 조사된 자료의 종과 장소의 관계를 행렬도에 유사하게 나타내는 정도를 의미한다. 

 

정준대응분석은 PCA와 마찬가지로 데이터셋의 변동을 가장 잘 설명할 수 있는 새로운 변수 또는 축(직교 성분)을 찾는 다변량 배열(ordination)분석이다. 그러나 PCA는 관측값(종 분포)들이 변화도(환경변수)와 선형적으로(또는 단조적으로) 관련되어 있다고 가정한다. 반면, CA와 CCA는 관측값이 변화도에 따라 단봉형 분포(unimodel)를 가지는 것으로 가정한다. 특히 종 분포에 대한 경우가 일반적이다. 이것이 CA, CCA 가 생태학자들에 의해 자주 사용되는 이유이다. 

더보기

※ 참고

관측값이 변화도와 선형적으로 관련된 경우에는 정준대응분석(CCA) 대신 정준상관분석 또는 중복분석을 사용하는 것이 바람직하다. 다시 말해 CCA는 정준상관분석과 RDA(단순선형회귀의 다변량 버전)가 PCA와 관련이 있는 것처럼 CA와 관련이 있다. 

 

2. 부분 정준대응분석(Partial Canonical Correspondence analysis, PCCA)

 

부분(partial) CCA는 (단순) CCA와 유사하지만 세번째 행렬(조건 행렬, conditioning matrix)의 효과를 제어한다. 조건 행렬은 제거해야할 인위적인 영향을 가지는 변수조건 행렬의 변수의 효과가 관측값 행렬로부터 제거되고 CCA가 수행한다. 

 

 

 

 

 

 

 

참고문헌 

clubedaciencia.com.br/canonical-correspondence-analysis-cca/

 

Canonical Correspondence Analysis: CCA and Partial CCA | Clube da Ciência

Hi There, The content of this post has been moved to: https://clubedaciencia.com.br/canonical-correspondence-analysis-cca/ Today we are going to see

clubedaciencia.com.br

R 응용 다변량분석 - 나종화 지음

 

댓글