본문 바로가기
Multivariate analysis/다변량분석

ANOVA(분산분석), MANOVA(다변량분산분석)

by 뚜찌지롱 2020. 5. 8.

 

 

모집단에 대한 정보(평균, 분산)을 알아내기 위해서는 전수조사를 해야하는데 이는 시간과 비용면에서 부담이 될 수 있다. 따라서 모집단에서 추출한 표본을 대상으로 '모집단의 평균과 분산은 어떠할 것이다' 라는 가정을 세워두고 검정을 실시하게 된다. 지금부터 나오는 가설검정들은 위와 같은 흐름에서 진행된다는 것을 기억하자. 

 

1. One sample t - test

단일 표본에서 '모평균에 대한 가설 검정'은 표본의 평균이 어떤 지정된 값과 같다고 해도 좋은지 검정할 때 사용하는 방법이다. 예를 들면, 어떤 말의 수명에 대한 표본이 있을 때, 이 품종의 말의 평균 수명이 22년이라고 하자. 이 때, 말의 평균 수명이 정말 22라고 할 수 있는지 검정하는 것이다. 

 

X (말) 1 2 3 4 5
life (수명) 23 17 12 21 26


2. Two samples t - test

이표본에서 '평균 차이에 대한 가설 검정'은 두 집단의 표본을 종속적, 독립적 관계로 추출하여 비교함으로써 유사성을 검정하는 방법으로 두 집단의 차이를 알아보기 위해 사용되는 분석방법이다. 이표본은 상황에 따라 대응표본(paired samples)독립표본(independent samples)의 경우로 나누어진다. 이표본의 경우 유의할 점은 집단 간 모분산이 동일하다고 가정을 해야한다. 등분산 가정은 매우 비현실적이지만 등분산 가정이 없을 경우 정확한 검증법은 아직 출현하지 않았다.

 

① paired test

대응표본은 관심있는 변수를 동일 대상자에 대하여 두 번 측정한 자료이다. 이 때, 두 번의 관측이 서로 독립이 아니다. 대응표본 검정은 예를 들어, 치료를 받기 전과 후의 암세포 크기에 대한 자료가 있을 때 전과 후의 차이를 구해 그 차이가 0인지 확인하는 것으로 사실상 단일표본 검정과 같아진다. 

환자 1 2 3 4 5
치료 전 11 13 9 15 6
치료 후 9 10 8 12 4

 

② independent test

독립표본 검정은 두 개의 독립적인 집단 간 모평균이 같은지 검정하는 방법이다. 이 때, 독립적인 집단은 여자와 남자처럼 전혀 관련이 없는 집단이다. 예를 들어, 성별에 따른 수학 성적에 차이가 존재하는지 확인하는 방법이다.

여자 1 2 3 4 5
수학 성적 88 98 76 92 82
남자 1 2 3 4 5
수학 성적 98 87 85 79 60

 

 

3. ANOVA (Analysis of variance)

3개 그룹 이상의 모평균들을 비교할 때는 분산분석을 사용한다. 평균 비교인데 왜 이름은 분산분석일까? 그 이유는 집단 간 평균 차이를 비교할 때 분산의 개념을 활용하기 때문이다. 집단 평균들 간 분산이 클수록 그리고 집단 내 분산이 작을수록 평균의 차이가 분명해진다. 즉, '집단 간 분산' 과 '집단 내 분산'을 이용해 평균을 비교하기 때문에 분산분석법이라고 부른다. 

 

 

이표본일 때는 양측가설, 단측가설을 설정할 수 있지만 삼표본 이상일 경우에는 그러한 설정이 불가능하며, 분산분석의 첫번째 목표는 세 집단의 모평균이 같은지 여부를 검정하는 것이며, 그 이후의 문제($H_0 기각 - 세 개의 모평균 중 하나라도 다름.)는 집단간 모평균을 비교하는 다중검정를 통해 어떻게 차이가 있는지 분석 해야한다.

 

 

 

(1) 일원배치법(1-way ANOVA) 

 

  • Design

 

Treatment
1 2 3 4 5
Y11 Y21 Y31 Y41 Y51
Y12 Y22 Y32 Y42 Y52
.. .. .. .. ..

 

위의 design은 실험설계법 관점에서 완전 랜덤화 설계(Completely Randomized Design)라고도 하며, 독립 이표본의 design이 완전 랜덤화 설계의 가장 기초적인 경우이다.

일원배치법은 반응변수(Y)와, 요인(factor, X)이 1개인 경우이다. 즉, 학급(1,2,3,4,5)에 따른 키(Y)에 차이가 있는지 알아보고자하는 실험이 있다. 분산분석에서는 설명변수 대신 factor(요인)이라는 용어를 자주 쓴다. 요인은 결과에 영향을 미치는 원인으로 범주형(Categorical) 형태이다. 수준과 처리를 헷갈려할 수 있는데 수준은 학급 하나하나를 수준이라고 하며, 처리는 요인 수준들의 조합이다. (관심 요인이 하나일 떄는 그 요인의 수준이 바로 처리며 관심 요인이 둘 이상이라면 두 요인들의 수준 조합이 처리가 된다.)

 

  • 반응변수(response; Y) : 키
  • 요인(factor; X) : 학급
  • 수준(levels) : 학급(1,2,3,4,5)

 

  •  Model

위의 자료구조는 세 가지 형태의 모형식으로 표현할 수 있다. 그 전에 자료에 대한 가정은 다음과 같다. 

 

  • 각 처리들의 분산이 같다. (등분산)
  • 각 처리들의 데이터들은 서로 독립인 정규분포를 따른다. (독립성, 정규성)

 

이는 다음과 같이 간단하게 나타낼 수 있다.

$Y_{ij} \sim  N(\mu_i, \sigma^2) \; , i=1,2, .., t  \; , j=1,2, .., r$   --- (1)

 

각 관측값에 대해 모형을 만들면, "관측값 = 모평균 + 오차" 의 형식으로 구현된다.

$Y_{ij} = \mu_i + \epsilon_{ij} \; , \epsilon_{ij} \sim N(0, \sigma^2)$ --- (2)

 

위의 모형이 가장 기본적인 모형이지만,  anova 분석 목적에 맞게 식을 약간 변형하려고 한다. 분산분석의 목적은 처리(집단) 간 차이가 존재하는지 비교하기 위해서 수행된다. 그리고 처리의 대표값으로 평균을 고려하는 것이 보편적이며,  결국 처리 평균들 간에 차이가 있는지 검정하는 문제도 귀착된다. 따라서, 모형에 처리효과를 나타내기 위해 각 처리의 평균 $\mu_i$에 전체 평균 $\mu$를 뺀 ($\mu_i-\mu$) 값을 넣어주어 처리 i 의 전체 평균에 대한 상대적인 효과(effect)를 넣어준다. 

 

$Y_{ij} = \mu + (\mu_i - \mu)+ \epsilon_{ij} ,  \epsilon_{ij} \sim N(0, \sigma^2)$ 

 

따라서, 위 식은 CRD에 대한 보편적인 모형으로 쓰이며, 처리 i 효과는 $\tau_i$로 표현한다.

 

$Y_{ij} = \mu + \tau_i + \epsilon_{ij} ,  \epsilon_{ij}  \sim  N(0, \sigma^2)$ --- (3)

 

처리효과 $\tau_i$에 대해 항상 다음 관계식이 성립한다. 

 

$\sum \tau_i = \sum \mu_i - t \mu = 0 $이다.

 

 

⑶ Test statistic

 

수식을 바탕으로 F분포를 통해 분산분석을 하는 원리에 대해서 설명하고자 한다. 분산분석을 소개할 때 집단 간 평균 차이 비교를 위해 분산의 개념을 활용한다고 했다. 즉, 집단 간 분산이 클수록 집단 내 분산이 작을 수록 평균의 차이가 확실하게 난다. 이 사실을 알고 F-통계량을 보자. 

 

$F=\frac{SS_{Trt} / (t-1)}{SS_E / (N-t)}$ 

 

이는 집단 내 오차제곱과 집단 간 오차제곱의 비이다. F값이 클수록 귀무가설을 기각할 확률이 커지며, 이는 처리간 평균 차이가 존재한다고 할 수 있다. 이를 F-통계량 식으로 보면 집단 간 오차는 클수록; 집단 내 오차는 작을수록 F값이 크다는 의미와 같다. 

 

 

② 이원배치법(2-way ANOVA) 

이원배치법은 일원배치법에서 요인이 1개 더 있는 경우다. 즉, 학급(1,2,3,4,5) 요인과 성별(여,남) 요인에 따른 키(Y)에 차이가 있는지 분산분석을 이용해 검정한다. 

- 반응변수(Y) : 키

- 요인(X) : 학급, 성별

- 수준 : 학급(1,2,3,4,5), 성별(여,남)

 

 

※ T검정에서 F검정으로 jummmmp ?

 

일반적으로 2개의 그룹을 비교할때는 t-검정을 사용하고, 그룹이 3개 이상일 때는 F-검정을 이용한다. 3개의 그룹을 비교하는 가설의 경우 t-검정을 그룹 조합의 수만큼 시행하면 되는거 아닌가? 라고 생각을 했었다. 예를 들어 A, B, C 그룹이 있다고 하면, 비교 가능한 조합은 (AB, AC, BC) 이며 동시에 t-검정을 3번 수행하는 것이다. 결론부터 말하자면, 동시에 비교실험을 할 경우 신뢰도가 하락하게 된다. 우리는 이를 다중 검정의 문제라고 한다. 

 

위의 예시에서 하나의 조합에 대해 $\alpha = 0.05$하에 two-sample t-test를 진행하자. 이 경우 귀무가설이 참일 때, 귀무가설을 기각하지 않을 확률은 $(1-0.05)=95%$ 가 되며, 그에 따라 세 가설 모두 동시에 올바르게 판단할 확률은 $(1-0.05)^3 = 85.7%$ 가 된다. (곱의 법칙 - 두 사건이 동시에 발생할 경우의 수는 곱으로 나타낸다.) 이를 뒤집어 말하면, 잘못된 판단을 내일 확률은 결국 $(1-0.857) = 14.3%$ 씩이나 된다. 결국, 유의수준 5%로 여러 개의 가설검정을 수행하면, 실제 $\alpha$ 값이 매우 커지는 문제가 발생하며, 다수의 검정을 동시에 수행할 경우 전체오류율을 5%로 유지하는 방법이 필요하다. 이에 대한 자세한 얘기는 다른 포스팅에서 다루도록 하겠다. 

 

반면 분산분석은 세 집단의 모평균 비교 검정을 단 한번에 수행하기 때문에 전체오류율을 $\alpha$로 유지할 수 있다. 결론적으로, F검정을 사용하는 이유는 집단내 분산, 집단간 분산을 이용하기 때문이며, 이는 T-검정을 3번 수행해야하는 번거로움과 발생할 수 있는 오류도 해결해준다. 

 

 

 

 

 

4. MANOVA (Multivariate analysis of variance)

먼저, 글쓴이는 MANOVA 분석과정에서 필요한 수식을 적으려는 것이 아닌 MANOVA 분석의 원리나 이해를 위한 설명을 쓰려고한다.

 

다변량 분산분석은 두 개 또는 그 이상의 반응변수(Y)가 있을 때 사용하는 방법으로, 반응변수 간의 공분산을 사용하여 다수의 반응변수들에서 집단 간의 차이가 있는지를 검정하는 방법이다. MANOVA에서는 반응변수가 벡터의 형태로 주어지므로 모집단의 평균벡터 사이에 차이가 있는지 여부를 판단하는 것이 주요 관심사이다.

 

MANOVA의 특징에 대해 소개해보면, 반응변수 간의 공분산을 이용함으로서 더 많은 정보를 사용한다. 공분산을 사용한다는 것이 어렵게 다가오지만 생각해보면 당연한 것이라고 느낄 수 있다. Hotelling T2에서 설명함) 반응변수 간 공분산이 0이라면(상관=0, 독립) 일변량 ANOVA를 여러번 반복하는 것과 같은 결과가 나온다. 또한, ANOVA를 중복수행하게 되면 1종오류가 증가하게 된다.(이는 다음에 포스팅하겠습니다.) 따라서, 다변량 자료에서는 반응변수의 상관정도에 관계없이 ANOVA보다 MANOVA를 이용하는 것이 신뢰도 측면에서 좋다고 결론지을 수 있다. 분석의 순서는 개별 반응변수에 대한 유의성 검정을 수행한 후 적용한다. 이 후 설명은 ANOVA와 같으므로 생략하겠다.

 

MANOVA에도 요인의 수에 따른 일원배치, 이원배치가 있다.

 

⑴ assumption 

 

반응변수는 다변량정규분포를 따른다. (정규성 검정)  / 각 집단의 분산-공분산 행렬이 동일하다. (Box M검정)

 

 

⑵ model

 

one-way MANOVA  :  $Y_{ij}=\mu + \alpha_i + \epsilon_{ij}$ 

                             $\alpha$ : 첫 번째요인에서 i번째 처리효과

 

two-way MANOVA  :  $Y_{ijk}=\mu + \alpha_i + \beta_j + \gamma_ij + \epsilon_{ij}$ 

                             $\alpha$ : 첫번째 요인에서 i번째 처리효과    

                             $\beta$ : 두번째 요인에서 j번째 처리효과  

                             $\gamma$ : 요인들의 교호효과

 

 

⑶ Test statistic

 

주로 이용되는 검정통계량은 Wilks lambda검정, Pillai 검정, Lawley-Hotelling 검정, Roy의 최대근 검정이 있다. 

 

 

 

 

 

 

 

 

 


☆★잠깐 !!!!!!!!!!! 여기서 글쓴이가 헷갈렸던 점을 다시 정리해보자면,  

 

T-test ; 1개의 반응변수(Y)에 대한 분석; 집단이 1, 2개 일때는 t-test, two-sample test, 3개 이상일 때는 anova

 

Hotelling-t2은 2개 이상의 반응변수(Y)에 대한 분석; 집단이 1개, 2개 일때는 hotelling-t2, 3개 이상일 때는 manova

 

 

댓글