본문 바로가기

Multivariate analysis/다변량분석15

혼합분포군집(mixture distribution clustering) 데이터들이 항상 정규분포와 같은 단일분포만 따른다고 하면 얼마나 편할까 ? 하지만, 세상은 그렇게 호락호락하지 않게도 실제 데이터들의 형태를 보면 봉우리가 2개인 분포, 도넛형태의 분포 등.. 다양한 분포를 가지는 데이터들이 존재한다. 매우 복잡한 형태를 가진 데이터들의 분포는 혼합분포로 설명될 수 있다. ○ 혼합분포 "혼합분포"란 여러 분포를 확률적으로 선형 결합한 분포이다. 이는 각 데이터가 하나의 분포만을 따르는 것이 아니라 또 다른 분포(또는 모수가 다른 같은 분포)를 따르는 것을 의미한다. 다음 그림을 통해 직관적으로 이해할 수 있다. 데이터의 분포가 다봉형의 형태(빨간 곡선)를 띠며, 이를 단일 분포로 적합하는 것은 바람직하지 않아 보인다. 이런 경우, 혼합 분포를 떠올릴 수 있으며 위의 그림.. 2021. 3. 3.
판별분석(Discriminant Analysis, DA) 1. 판별분석 판별분석은 일종의 분류(classification)의 문제로, 두 개 또는 그 이상의 그룹(또는 군집 또는 모집단)이 사전에 알려져 있을 때, 새로운 관측값을 특성에 기초하여 이미 알려진 모집단 가운데 하나로 분류하는 기법이다. 판별분석은 두 가지의 목적을 가진다. 하나는 알려진 모집단으로부터 관측값들의 집합을 구별하는 분류기(classifier)를 찾는 것이며, 다른 하나는 이 분류기를 이용하여 구분되지 않은 관측값을 특정 그룹으로 구분 짓는 것이다. 판별분석에서는 모집단에 대한 다변량 정규성, 그룹-내 공분산행렬의 동일성, 변수들 간의 낮은 다중공선성의 가정이 요구된다. 2. 판별분석의 원리 두 그룹 A, B가 존재하며, 두 그룹의 각 원소를 X1, X2에 대해 측정하였다. 타원은 각 .. 2020. 6. 21.
공분산 분석 (ANCOVA) 1. ANCOVA ANOVA는 요인수준(X)에 따른 반응변수(Y)가 차이가 있는지 검정하는 분석이며, ANCOVA도 마찬가지로 요인수준(X)에 따른 반응변수(Y)가 차이가 있는지 검정하지만, 요인 이외에도 반응변수에 영향을 주는 요인(공변량)을 통제한 후 요인수준(X)이 반응변수에 미치는 순수한 영향을 측정하는데 목적이 있다. 공변량은 주 관심요인은 아니지만 반응변수(Y)에 영향을 미치는 요인이다. 공변량을 추가함으로써 모형으로 설명되지 않는 변동의 일부분을 설명하여 모형에서의 그룹-내 오차분산을 줄일 수 있다. 또한, 반응변수에 영향을 미치는 공변량 효과를 통제함으로써 처리효과를 보다 정확하게 추정할 수 있다. 공분산 분석은 공변량 효과의 통제하에 주효과와 교호작용효과를 검정하기 위해 사용된다. 만약 .. 2020. 5. 29.
Hotelling's T-Squared Hotelling T2는 다변량 자료인 경우 사용하는 모평균 벡터 검정으로 t-test의 확장된 버전이다. 반응변수(Y)가 2개 이상인 자료의 모평균 벡터를 비교하며, 반응치 변수들 간의 공분산을 고려한다는 특징이 있다. 또한, 여기서 주목해야할 점은 벡터라는 단어가 사용되었다. (이건 개인적으로 개념을 정확히 알고가자는 의미에서 주목하자고 한것임 !) 다변량 자료를 취급하면서 스칼라가 벡터의 개념으로 확장이 되는데 스칼라는 구성인자가 하나인 벡터이고, 벡터는 동일한 유형(numeric, chracter..)의 데이터가 1차원으로 구성되어 있는 구조이다. 글로만 말하면 머릿속에서 그림이 잘 그려지지 않으니깐 데이터의 design을 비교하면서 생각해보자. 1. Data (1) 일변량의 경우, 데이터 구조는.. 2020. 5. 27.
ANOVA(분산분석), MANOVA(다변량분산분석) 모집단에 대한 정보(평균, 분산)을 알아내기 위해서는 전수조사를 해야하는데 이는 시간과 비용면에서 부담이 될 수 있다. 따라서 모집단에서 추출한 표본을 대상으로 '모집단의 평균과 분산은 어떠할 것이다' 라는 가정을 세워두고 검정을 실시하게 된다. 지금부터 나오는 가설검정들은 위와 같은 흐름에서 진행된다는 것을 기억하자. 1. One sample t - test 단일 표본에서 '모평균에 대한 가설 검정'은 표본의 평균이 어떤 지정된 값과 같다고 해도 좋은지 검정할 때 사용하는 방법이다. 예를 들면, 어떤 말의 수명에 대한 표본이 있을 때, 이 품종의 말의 평균 수명이 22년이라고 하자. 이 때, 말의 평균 수명이 정말 22라고 할 수 있는지 검정하는 것이다. X (말) 1 2 3 4 5 life (수명) .. 2020. 5. 8.
마할라노비스 제곱거리와 카이제곱분포을 통한 다변량 이상치 탐색 다변량 자료를 다루기 전, 먼저 알고 넘어갈 사항이 있다. 정규분포와 마찬가지로, 다변량 정규분포는 몇몇 다변량 분석 절차에서 중요한 역할을 한다. 또한, 모집단의 모수에 대한 추론은 주로 모집단에 대해 다변량 정규분포의 가정하에 이루어 진다. 1. 다변량 정규분포 확률벡터 $X = X(X_1,X_2, \cdots,X_p)^T$가 평균이 $\mu$이고 공분산행렬이 $\Sigma$인 다변량 정규분포를 따를 때 (기호로, $X$ ~ $N_p(\mu,\Sigma$)), 확률밀도함수는 다음과 같다. $f(x;\mu,\Sigma) = (2\pi)^{-p/2} det(\Sigma)^{-1/2} exp[-\frac{1}{2} (x-\mu)^T \Sigma^{-1} (x-\mu)] $ 위의 확률밀도함수는 동일한 값을 .. 2020. 4. 16.