맥네마 검정은 분할표에서 각 관측치 간에 독립성이 만족하지 않을 때 사용하는 검정이다. 독립성을 만족한다면 카이제곱 검정을 수행하면된다. 또 다르게는 짝지어진(paired) 범주형 자료에 대한 대응분석으로 생각할 수 있다. 대응분석은 일반적으로 한 대상에 대해 실험을 전(Before), 후(After)로 2번(paired data) 수행하여 처리에 대한 효과가 있는지 확인하는 검정이다. 한 대상에 대해 2번 실험을 수행하기 때문에 연관되어 있다고 하는 것이며 이는 독립성을 만족하지 않는 것과 같다. 여기서, 반응변수가 연속형이라면 paired t-test 검정을 수행하지만, 반응변수는 범주형이며 특히, 범주가 2개인 경우 맥네마 검정을 이용하여 범주형 자료를 분석한다. 범주가 3개 이상으로 확장된 경우에는 Stuart-Maxwell 검정, McNemar-Bhapkar 검정이 있다. 검정력 측면에서는 Bhapkar 검정이 우수하나, Stuart-Maxwell은 제 1종 오류를 더 잘 통제한다는 장점이 있다.
맥네마 검정의 목적은 paired 데이터에서 column과 row의 주변확률(marginal probability)이 같은지 검정하는 것이다.
반응변수의 값은 어떤 처리에 대한 효과를 보기 위해 처리를 가하기 전/후에 측정한 값을 의미할 수 있지만, 각 다른 종류의 처리를 가한 후의 값을 의미할 수도 있다. 이러한 경우, 다른 처리의 효과가 동일한지를 보기 위해 설계를 한 것이다. 예를 들어, 다음의 두가지 분할표와 같이 나타낼 수 있다.
MRI | Total | |||
양성 | 음성 | |||
CT | 양성 | a | b | a+b |
음성 | c | d | c+d | |
Total | a+c | b+d | N =(a+b+c+d) |
After | Total | |||
양성 | 음성 | |||
Before | 양성 | a | b | a+b |
음성 | c | d | c+d | |
Total | a+c | b+d | N =(a+b+c+d) |
왼쪽 분할표는 N명의 환자를 대상으로 MRI와 CT 검사를 받게 하여 질병이 있다고 판독할 비율에 차이가 있는지 검정하기 위해 각 다른 처리를 준 것이고, 오른쪽 분할표는 어떠한 약을 처방하기 전과 후에 질병 유무를 검사하여 약의 효과가 존재하는지 검정하기 위해 처리를 주기 전과 후로 설계를 한 것이다. 즉, 변수가 2개 있는 것이다 !!
raw 데이터의 형태는 다음과 같은 형태를 가지고 있다.
MRI / Before | CT / After | |
1 | 양성 | 양성 |
2 | 음성 | 양성 |
... | ... | ... |
맥네마 검정의 목적은 연관된 두 확률인 marginal probability가 같은지 검정하는 것인데, 이를 식으로 나타내면 다음과 같다.
$P(a+b) = P(a+c)$
$\Leftrightarrow P(a) + P(b) = P(a) +P(c), $
(이때, $P(a) = \frac{a}{a+b}$ 이다.)
위의 식은 양성비율에 대한 식임을 참고하자. 식에서 같은 확률을 날려주면, 결국 귀무가설은 $P(b) = P(d)$로 정리된다. 이 귀무가설을 말로 표현해보면 "MRI 검사 결과 양성으로 판독될 비율과 CT 검사 결과 양성으로 판독될 비율이 같은가?" 또는 "전체에서 약을 처방하기 전의 양성 비율과 처방한 후의 양성 비율이 같은가?" 를 의미한다.
멕네마 검정의 귀무가설은 주변확률의 동질성을 의미하며, 최종 정리된 식은 대칭성을 의미한다. 즉, 맥네마 검정에서 주변동질성은 대칭성과 동치를 의미한다. 따라서, 동질성 검정을 수행할 때 사용하는 카이제곱 검정통계량을 사용할 수 있다. 즉, 대표본의 경우 검정통계량과 귀무가설하에서의 분포는 다음과 같다.
$\chi^2 = \sum_{i=1}^2\sum_{i=1}^2 \frac{(O_{ij}-E_{ij})^2}{E_{ij}}$
위 식에서 귀무가설하에서의 기대빈도는 다음과 같다.
$E_b = E_c = \frac{b+c}{2}$
구한 기대빈도를 위의 검정통계량에 대입해서 정리하면 다음과 같은 식으로 정리된다.
$\chi^2 = \frac{(b-c)^2}{b+c} \sim \chi^2 (1)$ for large $b$ & $c$
맥네마 검정통계량은 z-통계량의 형태로도 표현할 수 있다.
$z = \frac{b-c}{\sqrt{b+c}} = \frac{P(b) - P(c)}{\sqrt{(P(b) + P(c))/n}} = \frac{P(a+b) - P(a+c)}{\sqrt{(P(b) + P(c))/n}}$
이를 이용하면 양측검정 뿐 아니라 단측검정도 수행할 수 있다. 위 식의 마지막 표현에서 이 검정은 연관된 두 비율에 대한 동질성 검정으로 이해될 수 있음을 알 수 있다.
'Statistics' 카테고리의 다른 글
DTW(Dynamic Time Warping) (5) | 2021.06.25 |
---|---|
왜, 언제 스케일링(standardization, min-max)를 수행해야 할까 ? (0) | 2021.06.11 |
오즈비(Odds ratio, OR)와 상대위험도(Relative Risk, RR) (0) | 2021.05.27 |
Boruta 알고리즘 (0) | 2021.05.03 |
결측값(Missing Value) (0) | 2020.04.02 |
댓글