High Dimensional data/multiple testing

재표본방법에 기반한 FDR

뚜찌지롱 2021. 8. 17. 02:47

FDR을 통제하면서 다중 검정을 수행하고자 하는데 이론적분포를 사용할 수 없거나 사용을 피해야하는 상황을 생각해보자. 이전 포스팅에서 다뤘던 것 처럼 각 가설에 대한 T통계량을 계산하고, p-value을 계산한다. 그런 후, 각 p-value에 Benjamini-Hochberg 방법을 적용하여 q-value(= FDR과 비교하기 위한 일종의 adjusted p-value)를 도출하는 과정은 동일하다. 

재표본을 통해 FDR을 추정하기 위해 먼더 다음의 근사를 수행한다. 

 

$FDR = E(\frac{V}{R}) \approx \frac{E(V)}{R}$

 

R은 기각한 귀무가설의 수를 의미하며 $\sum_{j=1}^m 1_{(|T_j| \leq c)}$ 로 계산할 수 있다. E(V)는 기각한 귀무가설 중 잘못된 판단을 가설 수를 의미하며, 실제로 귀무가설이 참인지 거짓인지 알 수 없기 때문에 문제가 발생한다. 이를 해결하기 위해 재표본방법을 이용할 수 있다. 

 

 

1) 임계값을 정한다. 2)-a 원데이터로부터 각 가설에 대한 통계량을 구한다. 2)-b 가설마다 재표본 방법을 이용하여 B개의 통계량을 구한다. 기각역보다 큰 통계량의 수를 센다. 이 과정을 j번 수행한다. 귀무가설이 참이라는 가정하에 수행되므로 기각하는 것이 잘못된 판단(false)를 의미한다. 3) R은 기각된 가설의 수를 의미하며, 4) $E(\bar{V})$은 B번의 재표본 과정 중 $T^{(j), *b}$가 기각역보다 큰 가설의 수 즉, 잘못 기각한 가설의 수를 의미한다.  

 

각 가설검정에 대한 p-값은 다음과 같이 구할 수 있으며, 이를 기반으로 Benjamini-Hochberg 검정을 적용할 수 있다.

 

$p_j = \frac{\sum_{j^'=1}^m \sum_{b=1}^B 1_{(|T_{j^'}^{*b}| \leq |T_j|)}{Bm}$