본문 바로가기
Multivariate analysis/다변량분석

중복분석(redundancy analysis, RDA)

by 뚜찌지롱 2021. 3. 29.

중복분석은 반응변수(Y)가 1개이고, 설명변수(X)가 여러개인 다중 선형 회귀(Multiple Linear Regression)의 확장으로 반응변수와 설명변수가 여러개인 회귀분석이라고 생각할 수 있다. 따라서, 선형 회귀와 동일한 가정이 적용된다. 

① 선형 종속성

② 설명변수의 수 < 데이터의 수

③ 설명변수와 반응변수는 동일한 물리적 단위를 가져야함

    -> 그렇지 않은 경우, 중복분석을 수행하기 전 표준화를 시행. 표준화되어서는 안되는 원시 카운트 데이터는 예외.

 

 

(1) 목적

 

중복분석은 설명변수들의 결합으로 반응변수들의 변동을 얼마나 설명할 수 있는지(반응변수의 변동과 설명변수에 의해 설명된 변동이 얼마나 중복되는지)를 분석하는 것으로 어느 정도로 설명되는지 알기 위해서는 "변동"을 계산해야 하는 특징도 가지고 있다. 변동이라는 단어가 나오면 PCA(주성분 분석)을 잊을 수 없는데 중복분석에서도 PCA 과정이 포함된다. 이는 알고리즘에 대해 설명할 때 다시 설명할 것이다.

 

(2) 알고리즘 

 

RDA 알고리즘은 다음의 그림으로 설명할 수 있다. sample x species (n x p, 관측값 행렬) 과, env 행렬(환경 행렬)이 존재한다고 할 때, spe1(종)은 환경변수인 env1에 의해 모형이 적합될 것이다. 모형에 의한 적합값은 예측값 행렬에 저장되고 잔차는 잔차 행렬에 저장될 것이다. 

 

 

이러한 과정을 모든 종(spe2, spe3, ... , spe(p))에 대해 반복한다. 모형에 의해 생성된 예측값 행렬과 잔차 행렬에 대해 PCA를 수행하는데 이는 시각화를 위해서 데이터의 변동을 잘 나타낼 수 있는 정준/비정준 축(Constrained/ Unconstrained axes)을 찾기 위함이다. 

 

 

(3) 결과

 

반응변수의 총분산은 설명변수와 관련된 분산(Constrained variation)과 잔차와 관련된 분산(Unconstrained variation) 으로 나뉘어 지고, Constrained variation이 클수록 설명변수에 의해 표현되는 변동과 반응변수의 변동이 많이 중복됨을 의미한다. 만약, Unconstrained variation이 더 크다면 반응변수의 변동 중 아주 적은 양만 설명되는 것을 의미하므로 결과 해석에 주의하여야 한다.

 

 

(4) CCA와 비교

 

정준대응분석(CCA)는 중복분석(RDA)와 관련있지만, RDA에서는 Y와 X 행렬이 선형적으로 관련이 있다고 가정하며, CCA는 환경의 변화도에 따라 종의 분포가 단봉형분포를 가진다고 가정한다. RDA는 환경 변화도가 작은 경우에 더 잘 적합하다. 

 

 

 

 

 

 

 

 

 

 

참고문헌

 

www.davidzeleny.net/anadat-r/doku.php/en:rda_cca

 

en:rda_cca [Analysis of community ecology data in R]

 

www.davidzeleny.net

mb3is.megx.net/gustame/constrained-analyses/rda

 

Redundancy Analysis - GUSTA ME

A GUide to STatistical Analysis for Microbial Ecology

mb3is.megx.net

help.xlstat.com/s/article/redundancy-analysis-rda-in-excel-tutorial?language=en_US

 

Redundancy Analysis (RDA) in Excel tutorial | XLSTAT Support Center

EnglishFrenchGermanJapaneseSpanish

help.xlstat.com

www.xlstat.com/en/solutions/features/canonical-correspondence-analysis-cca-and-partial-cca

 

Canonical Correspondence Analysis (CCA and partial CCA)

Canonical correspondence analysis investigates the links between a contingency table and a set of variables. Run CCA in Excel using the XLSTAT software.

www.xlstat.com

 

댓글