본문 바로가기

High Dimensional data4

재표본방법에 기반한 FDR FDR을 통제하면서 다중 검정을 수행하고자 하는데 이론적분포를 사용할 수 없거나 사용을 피해야하는 상황을 생각해보자. 이전 포스팅에서 다뤘던 것 처럼 각 가설에 대한 T통계량을 계산하고, p-value을 계산한다. 그런 후, 각 p-value에 Benjamini-Hochberg 방법을 적용하여 q-value(= FDR과 비교하기 위한 일종의 adjusted p-value)를 도출하는 과정은 동일하다. 재표본을 통해 FDR을 추정하기 위해 먼더 다음의 근사를 수행한다. $FDR = E(\frac{V}{R}) \approx \frac{E(V)}{R}$ R은 기각한 귀무가설의 수를 의미하며 $\sum_{j=1}^m 1_{(|T_j| \leq c)}$ 로 계산할 수 있다. E(V)는 기각한 귀무가설 중 잘못된 .. 2021. 8. 17.
재표본 방법에 기반한 검정(resampling, permutation) 확률변수 X는 처리군에 속한 쥐의 혈압 측정값을 의미하며, 확률변수 Y는 대조군에 속하는 귀의 혈압 측정값을 의미한다. 여기서 우리는 두 집단에 속한 쥐의 평균 혈압이 같은지 여부를 알고 싶고, two-sample t-test를 이용하여 검정을 수행한다. 가설은 다음과 같이 나타낼 수 있다. $H_0 : \mu_x = \mu_y$ vs $H_1 : \mu_x \neq \mu_y$ $\mu_x = E(X) , \mu_y = E(Y)$ 만약, $n_x$와 $n_y$가 크면, T통계량은 근사적으로 표준정규분포를 따른다. 하지만, 작은 경우 확률변수의 근사 분포 가정을 할 수 없기 때문에 T통계량의 귀무가설하에서의 분포를 알 수 없다. 이러한 경우, 우리는 재표본(re-sampling) 방법에 기반하여 T통계량.. 2021. 8. 17.
붓스트랩 검정과 순열검정 붓스트랩 검정과 순열 검정의 시작은 재표본 추출(Resampling)이라는 큰 틀에서 시작되었다고 할 수 있다. 재표본 추출의 목적으로 3가지가 존재한다. 1. 데이터의 일부를 사용하거나 크기만큼 무작위로 복원추출함으로서 표본 통계량의 정확도를 추정 2. 가설 검정을 수행할 때 데이터의 라벨을 변경하여 재 검정함으로서 귀무가설의 변동가능성을 추정 3. 데이터의 일부를 랜덤하게 추출하여 모델을 검증 통계적 추론은 통계량의 표본분포를 기반으로 하며, 표본분포는 모집단으로부터 많은 랜덤 샘플을 추출함으로서 생성된다. 붓스트랩은 표본분포를 찾는 방법 중 하나이며, 모집단으로부터 관찰된 단 한 개의 표본을 가지고 있고 추가적으로 표본을 추출할 수 없을 경우에 유용하다. 또한, 통계적인 가정이 어려운 상황에서 유용.. 2021. 6. 23.
다중검정(multiple testing)의 문제 Note) 다중 비교(Multiple comparison), 다중 검정(Multiple testing), 사후 분석(Post-Hoc)이 같은 의미로 통용되고 있지만, 사실 이는 같은 것이 아니다 ! 1. 다중 검정 다중 검정은 여러 개의 가설검정을 동시에 수행하는 것이다. 예를 들어, 증상이 다른 두 환자 집단 간에 유의한 변수들(ex. 유전자 변수들)을 식별하기 위해 유전자의 갯수만큼의 가설을 검정하는 것이다. 고전적인 가설 검정 방법은 단일 가설을 검정하는 것에 관심이 있었지만, 방대한 데이터가 많이 생성됨에 따라 다중 검정도 주목을 받고 있다. 그 안에 흔히 분산분석(ANOVA) 후 그 결과가 유의한 경우에 한해 어떤 처리간 평균이 다른지 밝히기 위해 동시에 수행되는 다중 비교가 그 안에 속한다. .. 2020. 3. 31.