본문 바로가기

High Dimensional data/multiple testing3

재표본방법에 기반한 FDR FDR을 통제하면서 다중 검정을 수행하고자 하는데 이론적분포를 사용할 수 없거나 사용을 피해야하는 상황을 생각해보자. 이전 포스팅에서 다뤘던 것 처럼 각 가설에 대한 T통계량을 계산하고, p-value을 계산한다. 그런 후, 각 p-value에 Benjamini-Hochberg 방법을 적용하여 q-value(= FDR과 비교하기 위한 일종의 adjusted p-value)를 도출하는 과정은 동일하다. 재표본을 통해 FDR을 추정하기 위해 먼더 다음의 근사를 수행한다. $FDR = E(\frac{V}{R}) \approx \frac{E(V)}{R}$ R은 기각한 귀무가설의 수를 의미하며 $\sum_{j=1}^m 1_{(|T_j| \leq c)}$ 로 계산할 수 있다. E(V)는 기각한 귀무가설 중 잘못된 .. 2021. 8. 17.
재표본 방법에 기반한 검정(resampling, permutation) 확률변수 X는 처리군에 속한 쥐의 혈압 측정값을 의미하며, 확률변수 Y는 대조군에 속하는 귀의 혈압 측정값을 의미한다. 여기서 우리는 두 집단에 속한 쥐의 평균 혈압이 같은지 여부를 알고 싶고, two-sample t-test를 이용하여 검정을 수행한다. 가설은 다음과 같이 나타낼 수 있다. $H_0 : \mu_x = \mu_y$ vs $H_1 : \mu_x \neq \mu_y$ $\mu_x = E(X) , \mu_y = E(Y)$ 만약, $n_x$와 $n_y$가 크면, T통계량은 근사적으로 표준정규분포를 따른다. 하지만, 작은 경우 확률변수의 근사 분포 가정을 할 수 없기 때문에 T통계량의 귀무가설하에서의 분포를 알 수 없다. 이러한 경우, 우리는 재표본(re-sampling) 방법에 기반하여 T통계량.. 2021. 8. 17.
다중검정(multiple testing)의 문제 Note) 다중 비교(Multiple comparison), 다중 검정(Multiple testing), 사후 분석(Post-Hoc)이 같은 의미로 통용되고 있지만, 사실 이는 같은 것이 아니다 ! 1. 다중 검정 다중 검정은 여러 개의 가설검정을 동시에 수행하는 것이다. 예를 들어, 증상이 다른 두 환자 집단 간에 유의한 변수들(ex. 유전자 변수들)을 식별하기 위해 유전자의 갯수만큼의 가설을 검정하는 것이다. 고전적인 가설 검정 방법은 단일 가설을 검정하는 것에 관심이 있었지만, 방대한 데이터가 많이 생성됨에 따라 다중 검정도 주목을 받고 있다. 그 안에 흔히 분산분석(ANOVA) 후 그 결과가 유의한 경우에 한해 어떤 처리간 평균이 다른지 밝히기 위해 동시에 수행되는 다중 비교가 그 안에 속한다. .. 2020. 3. 31.