본문 바로가기

Multivariate analysis/다변량분석15

중복분석(redundancy analysis, RDA) 중복분석은 반응변수(Y)가 1개이고, 설명변수(X)가 여러개인 다중 선형 회귀(Multiple Linear Regression)의 확장으로 반응변수와 설명변수가 여러개인 회귀분석이라고 생각할 수 있다. 따라서, 선형 회귀와 동일한 가정이 적용된다. ① 선형 종속성 ② 설명변수의 수 그렇지 않은 경우, 중복분석을 수행하기 전 표준화를 시행. 표준화되어서는 안되는 원시 카운트 데이터는 예외. (1) 목적 중복분석은 설명변수들의 결합으로 반응변수들의 변동을 얼마나 설명할 수 있는지(반응변수의 변동과 설명변수에 의해 설명된 변동이 얼마나 중복되는지)를 분석하는 것으로 어느 정도로 설명되는지 알기 위해서는 "변동"을 계산해야 하는 특징도.. 2021. 3. 29.
정준대응분석(Canonical Correspondence analysis, CCA)과 부분 PCCA 생태학(ecology)분야에서 많이 활용되는 분석으로 정준대응분석과 중복분석이 있다. 두 분석은 모두 제약분석에 속한다. 제약분석(constrained analysis)은 직접변화도분석(direct gradient analysis)의 한 형태이다. 직접변화도분석은 데이터 테이블의 변동을 (직접(directly) 대응되는 테이블에 저장된) 설명변수 집합(예 : 환경 변수)의 변동을 통해 설명하는 방법을 말한다. 1. 정준대응분석 정준대응분석은 설명변수를 가지는 대응분석으로 생각할 수 있다. 생태학 분야에서 많이 사용되는 분석이니 해당 도메인 바탕의 예시를 들면, 종-발현 정보(Y)(=분할표, 장소별(행) 동물 종(열)의 빈도)가 존재하고 해당 장소의 환경정보(X)(=장소에 대한 추가적인 정보를 가지는 행렬.. 2021. 3. 29.
대응분석(Correspondence Analysis, CA) 두 범주형 변수 간의 연관성은 흔히 열별 혹은 행별 동질성 검정 혹은 독립성 검정 등 소위 카이제곱 검정을 통해 살펴본다. 그러나 카이제곱 검정은 두 범주형 변수의 연관성 여부를 결정하는 것이며, 구체적으로 두 변수가 가지고 있는 범주들 사이의 관계를 살펴볼 수는 없다. 이러한 문제점을 해결해 주는 통계적 기법이 바로 대응분석이다. 1. 대응 분석 대응분석은 다변량 범주형 자료를 대상으로 하는 탐색적 자료분석이다. 이변량($X_1, X_2$)의 경우 단순대응분석이라고 하며 분할표의 정보를 저차원의 공간에 시각화하여 두 범주형 변수의 상관관계를 파악할 수 있다. 다중대응분석(Multiple CA)은 단순대응분석(2차원 분할표에 대해 적용)을 범주형 변수가 여러 개인 경우로 확장한 분석이다. 이 외에도 고차.. 2021. 3. 21.
코호넨 군집(Kohonen network) 오늘은 인공신경망을 이용한 군집에 대해서 포스팅을 쓰려고 한다. 최근 군집분석에 대한 여러 기법들에 대해서 공부를 하고 있었는데 갑자기 인공신경망이라니(?!).... 라는 잠깐의 당혹스러움과 그 후에 밀려오는 대단함, 더 열심히 공부해서 나중에는 자연스럽게 머리에 그림을 그려나갈 수 있는 실력을 갖추어야겠다고 다짐한다 ! (모두들 화이팅...😂) 1. 자기조직화지도(Self-Organizing Map, SOM) 코호넨 군집은 SOM알고리즘으로도 불리며, 자기조직화지도를 이용하여 입력패턴을 유사한 패턴의 집단으로 군집화하는 방법이다. 자기조직화지도란, 다차원의 자료를 저차원(주로 일차원 또는 이차원)의 공간에 지도의 형태로 형상화한 것이다. SOM은 고차원의 데이터를 저차원의 맵(map) 상으로 축소시킨 .. 2021. 3. 12.
퍼지 군집(fuzzy clustering) 이전 포스팅에서 혼합 분포 군집(Mixture distribution clustering)과 밀도 기반의 군집(DBSCAN)을 다루었다. 이번 포스팅에서는 퍼지 군집(fuzzy clustering)에 대해서 다룰 것이다. fuzzy는 '모호함, 애매함' 의 뜻을 가지며 그 뜻과 상응하여 각 자료점이 한 개 이상의 군집에 속할 수 있도록 군집을 형성하는 것이다. 예를 들어, 1개의 자료를 A와 B로 분류해야 하는 상황(ex. 로지스틱 회귀)에서 A 군집의 특성과 100% 일치한다면 퍼지 군집을 수행하는 것은 의미가 없을 것이다. 하지만, A 군집과 B 군집에 속할 확률이 각 0.51 / 0.49 라고 했을 때 임계값이 보통 0.5 이므로 해당 자료를 A 군집으로 분류하는 것은 다소 찝찝함이 생긴다. 따라서.. 2021. 3. 10.
밀도기반군집(density-based clustering) 군집분석(clustering)은 대표적인 비지도학습(unsupervised learning)으로 크게 중심 기반(center-based) 알고리즘과 밀도 기반(density-based) 알고리즘으로 나눌 수 있다. 중심 기반 알고리즘은 "동일 군집에 속하는 데이터는 어떠한 중심을 기준으로 분포할 것"이라는 가정을 기반으로 한다. 밀도 기반 알고리즘은 "동일 군집에 속하는 데이터는 서로 근접하게 분포할 것"이라는 가정을 기반으로 한다. 중심 기반의 가장 대표적인 알고리즘으로 k-평균(k-means)이 있으며, 밀도 기반 알고리즘에는 이 포스팅에서 소개할 DBSCAN이 있다. 중심 기반 알고리즘과 밀도 기반 알고리즘의 특징에 대해 설명하면, 중심 기반 알고리즘의 경우 중심을 기준으로 군집을 형성하기 때문에 .. 2021. 3. 5.