항상 어떤 검정을 수행하기 전에 가정을 따르는지 확인하고 모수적 방법 or 비모수적 방법을 사용해야 한다.
오늘은 분산분석을 수행하기 전 만족해야 하는 가정에 대해 정리해볼 것이다. (tmi : 학부 때 영어라면 질색팔색을 했는데, 정말 좋은 자료가 많은 것 같다 ㅎ 이미 유명한 자료이며, 너무나 보기 좋기 정리 되어있기 때문에 참고하면 좋을 것 같다.)
만일 가정을 만족한다면 모수적 방법인 ANOVA 를 수행하면 되고, 만족하지 못한다면 Kruskal-Wallis test를 수행하면 된다.
분산 분석에 대한 글은 이전에 포스팅 했으니 생략하도록 하겠습니다 !
1. 분산분석을 수행하기 전 만족해야 하는 3가지 가정
- 각 군은 독립이어야 한다.
- 각 군은 정규분포를 따라야 한다. (군 별로 시행)
- 귀무가설(H0): 집단1은 정규분포를 따른다.
- 대립가설(H1): 집단1은 정규분포를 따르지 않는다. - 각 군의 분산은 동일해야 한다.
- 귀무가설(H0): 모든 집단의 분산은 차이가 없다.
- 대립가설(H1): 적어도 하나 이상의 집단의 분산에 차이가 있다.
2. 위의 조건들을 검정하려면, 어떤 방법을 써야할까 ?
- 정규성 검정
- Shapiro-Wilks test : 표본 수가 2000 미만일 때 주로 사용.
- Kolmogorove-Smirnov test : 표본 수가 2000 이상일 때 주로 사용
- Quantile-Quantile plot (Graphic test) : 시각적으로 확인하는 방법으로 이론적 정규분포와 데이터의 분포가 일치하는지 비교하여 판단. 직관적으로 확인할 수 있다.
- 등분산 검정
- Levene's test : 표본이 정규성을 만족하는지의 여부에 상관없이 사용할 수 있다.
- Bartlett’s test : Levene 검정과 달리 표본이 정규성을 만족할 때(정규분포를 띨 때)만 사용할 수 있다.
먼저, 정규성 검정을 수행하고 등분산 검정을 수행한다. 두 가정을 만족하면 일반적으로 사용하는 One-way ANOVA를 수행한다. 하지만, 정규성 검정을 만족하지 않으면 모집단에 대해 분포를 가정할 수 없으므로 비모수적인 방법인 Kruskal-Wallis test를 수행한다. 정규성을 만족하지만, 등분산성을 만족하지 않을 때 Welch's ANOVA를 수행한다. 현업에서 등분산가정을 확인하지 않고 ANOVA 또는 K-W test 을 사용하는 경우가 많은데, 이론적으로는 정규성 검정과, 등분산성 검정을 모두 봐야한다.
3. 고려해야 할 사항
여기서, 좀 더 생각해봐야 할 요소들이 있다. 첫 번째는, 표본 사이즈(sample size)를 고려하는 것이다. 우리는 '중심극한정리' 라는 무기를 가지고 있기 때문에 각 군의 표본 수가 >30 인 경우, 정규성 검정을 '굳이' 하지 않아도 된다. 굳이라고 한 이유는 검정 결과가 유의하게 나왔다 하더라도( = 정규분포를 따르지 않는다.), CLT에 의해 군의 표본평균이 근사적으로 정규분포를 따른다고 가정할 수 있기 때문에 무시해도 되기 때문이다.
두번째는, Shapiro-Wilks test 와 Levene's test 에는 한계가 있다. 표본이 크면 유의한 결과가 나오기 쉽다. 정규성 검정 방법의 경우, 표본이 크면 정규분포를 조금만 벗어나도 유의하다고 나올 가능성이 크다. 따라서, 검정을 수행하는 것을 얼마든지 해보되, 검정 결과에만 의존하지말고 그래프를 그려서 눈으로도 확인해 자료가 얼마나 정규분포에서 벗어났는지 파악해야한다. 등분산 검정 방법의 경우에도 표본이 크면 그룹 분산들이 조금만 달라도 유의한 결과가 나올 수 있다. (이는 표본이 크념 검정력이 향상되기 때문이다.). 이 점을 참작해서 검정 결과를 이중으로 확인하는 유용한 방법 하나는, 분산비 (variance ratio)라고도 하는 하틀리의 F_max 를 보는 것이다. 분산비는 말 그래도 서로 다른 그룹들의 분산들의 비인데, 더 큰 분산이 분자에 쓰인다. 그러한 분산비를 하틀리가 출판한 표의 임계치들과 비교함으로써 분산들의 동질성을 판정한다.
4. 정리
정리하면, 3군 이상의 평균을 비교할 때 분산분석을 이용하게 되는데 분산분석을 수행하기 전에 가정을 만족하는지 확인해야한다. 첫째는 정규성 검정, 둘째는 등분산 검정이며 정규성을 만족할 경우 모수적 방법인 ANOVA를 이용한다. 만족하지 못한다면 등분산의 여부와 상관없이 비모수적 방법인 Kruskal-Wallis 검정을 수행한다. 하지만, 정규성을 만족하나 등분산 검정을 만족하지 못하면 Welch's Anova 를 사용한다. 이는 두 집단 검정에서 두 집단이 등분산이 아닐 경우 welch's t-test 를 사용하는 것과 같은 개념이다. t-test와 welch's t-test 의 차이는 자유도를 구하는 것에 있는데, 이 점은 다른 포스팅에서 다루고자 한다.
아이러니 하게도, 표본의 크기가 크면 CLT에 의해 모수적 검정을 사용할 수 있다고 했는데 이를 직접 확인해보면 정규성을 만족하지 않을 때도 있다. 이는 표본 크기가 크면 Shapiro-Wilks test 검정이 유의하게 나오기 쉽다. 따라서, 검정결과에만 의존하는 것이 아닌 그래프를 그려 이중으로 확인해야 한다. 또한, Levene's test 검정도 표본 크기에 영향을 받으므로 분산비와 함께 해석할 필요가 있다.
<참고자료>
앤디 필드의 유쾌한 R 통계학 - 제이펍
https://mansoostat.tistory.com/46?category=659368
https://www.statisticshowto.com/probability-and-statistics/hypothesis-testing/anova/#HowToRun
https://www.statisticshowto.com/welchs-anova/
https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/
'Experiment design > 실험설계' 카테고리의 다른 글
실험 설계시, 가설과 지표 설정 방향 Idea (0) | 2023.02.26 |
---|---|
지분설계(nested design) (0) | 2020.06.16 |
EMS(expected mean square) : 기대평균제곱 (0) | 2020.06.15 |
요인 수준 선택 기준 (fixed , random, mixed) (0) | 2020.06.15 |
요인설계(factorial design) or 교차실험(crossed experiment) with fixed (0) | 2020.06.14 |
댓글