High Dimensional data

붓스트랩 검정과 순열검정

뚜찌지롱 2021. 6. 23. 09:15

 

붓스트랩 검정과 순열 검정의 시작은 재표본 추출(Resampling)이라는 큰 틀에서 시작되었다고 할 수 있다. 재표본 추출의 목적으로 3가지가 존재한다.

 

 

1. 데이터의 일부를 사용하거나 크기만큼 무작위로 복원추출함으로서 표본 통계량의 정확도를 추정

2. 가설 검정을 수행할 때 데이터의 라벨을 변경하여 재 검정함으로서 귀무가설의 변동가능성을 추정

3. 데이터의 일부를 랜덤하게 추출하여 모델을 검증

 

 

통계적 추론은 통계량의 표본분포를 기반으로 하며, 표본분포는 모집단으로부터 많은 랜덤 샘플을 추출함으로서 생성된다.  붓스트랩은 표본분포를 찾는 방법 중 하나이며, 모집단으로부터 관찰된 단 한 개의 표본을 가지고 있고 추가적으로 표본을 추출할 수 없을 경우에 유용하다. 또한, 통계적인 가정이 어려운 상황에서 유용하게 사용된다.  붓스트랩 샘플 생성 원리는 가지고 있는 한 개의 표본을 이용하여 여러 개의 표본을 만드는 것이다. 즉, 원데이터의 표본 크기가 n개라고 하면,  해당 데이터에서 다시 n개의 데이터를 복원추출하고, 이를 통해 생성된 데이터가 1개의 붓스트랩 샘플에 해당된다. 이를 B번 반복하면 B개의 붓스트랩 샘플이 생성된다. 

 

 

위 그림은 상단 박스에 있는 n=5인 원데이터에서 붓스트랩 샘플을 3개 생성한 것이다. 붓스트랩에서 핵심은 원데이터와 같은 표본크기와 복원추출이다.  통계량의 붓스트랩의 분포는 가능한 모든 붓스트랩 표본을 통해 계산된 통계량의 분포를 의미한다.

 

 

1. 붓스트랩(Bootstrap)

 

붓스트랩은 원 데이터에서 크기가 같은 표본을 복원 추출하여 추정량의 표본분포를 추정하는 방법으로, 대부분 평균/중앙값/오즈비/ 상관계수/회귀계수와 같은 모집단의 모수의 표준오차와 신뢰구간을 로버스트(robust)하게 추정하는데 쓰인다. 이는 plug-in principle 이라고 불리며, 모집단의 분포를 표본에 기반한 경험적 분포를 이용하여 추정하기 때문이다. 

 

붓스트랩 방법은 모잡단의 분포에 대해 정규성과 같은 가정을 두지 않기 때문에 고전적인 방법에 비해 계산이 간단하며 분포식을 가지고 있지 않아 유용하게 사용될 수 있다. 

 

 

표본분포를 생성하는 방법을 비교하여 붓스트랩 분포를 더욱 쉽게 이해해보자. 

 

위의 그림 (a)는 모집단으로부터 크기가 n인 단순 랜덤 샘플(simple random sample)을 얻어 각 샘플마다 평균($bar{x}$)을 계산하고 표본 평균의 분포를 나타낸 것이다. 계산된 평균들을 나열하면 분포가 형성될 것이다.  

 

 

그림 (b)는 전통적인 추론방식으로 모집단이 정규분포를 따른 가정하에 진행된다. 모집단이 정규성을 만족하면 표본평균 또한 정규분포를 따르게 된다. 만약, 모집단이 정규분포를 따르진 않지만 표본수 n이 크다면, CLT에 의해 표본 평균이 정규분포를 따른다고 할 수 있다. 즉, 모집단에 대해 분포 가정을 할 수 있다면, (a)에서와 같은 많은 표본을 뽑아 통계량의 분포를 형성하는 과정을 생략할 수 있게 된다. 

 

 

그림(c)는 붓스트랩의 아이디어를 보여주는 그림이다. 모집단에서 추출된 단일 샘플로부터 붓스트랩 샘플을 생성하고, 각 붓스트랩 샘플마다 표본평균을 구하여 표본평균의 표본 분포(붓스트랩 분포)를 생성한다. 이는 (a)에서 모집단으로 부터 다른 많은 표본을 추출하는 과정을 단일 표본에서 여러 개의 붓스트랩 표본을 생성하는 것으로 대체하는 것과 같다. 따라서, (a)보다 표본의 다양성은 적을 수 있으나, 비용면에서 장점을 가진다. 실제로 붓스트랩 표본의 통계량이 모집단의 통계량에 근접하는 것을 알 수 있다.   

 

붓스트랩 분포의 목적은 표본 평균을 추정하는 것이 아니라 표본 평균의 편차나 신뢰구간을 구하는 것에 있다. 즉, 표본 평균의 정확도를 추정하는 것이 목적이다. 

 

 

 

 

 

2. 순열검정(Permutation)

 

귀무가설 : 두 샘플사이의 차이효과가 랜덤 샘플에 의해 우연하게 발생한 것인지 검정. 우연하게 발생한 것이 아니라면, 관측된 효과차이가 모집단에 존재한 것. 

 

1. 두 표본 집단에서 비교하고자하는 통계량을 설정 --> 붓스트랩과 유사

2. 효과가 없을 경우, 즉 두 분포의 차이가 없다는 가정하게 검정통계량의 분포를 구성

3. 귀무가설하의 분포에서 관측된(경험적) 검정통계량을 계산하고, 기각역과 비교.

 

랜덤화 검정, 정확 검정이라고도 불리는 순열 검정은 통계적 유의성 검정 중 하나이다. 귀무가설하에서의 검정통계량의 분포는 관측값의 모든 가능한 배치 조합에서 계산되는 통계량에 의해 얻어진다.

 

순열검정의 기본 아이디어를 이해하기 위해 간단한 예시를 들어보다. 두 그룹 A, B로부터 관측된 확률변수 $X_A$와 $X_B$가 있다고 하자. 해당 집단의 표본 평균은 $bar{x}_A$, $bar{x}_B$이다. 우리는 두 확률변수가 같은 분포로부터 나왔는지를 검정하는 것이 목표이다. 순열검정을 두 표본평균의 차이가 유의한지를 검정하기 위해 이용되며, 우리가 알고 있는 t-검정과 목적이 같은 것을 알 수 있다. 순열 검정의 절차는 다음과 같다. 

 

전통적인 검정 방법은 사용할 수 있는 통계량이 제한되어 있지만, 순열검정에서는 모집단에서 계산된 어떤 통계량이든 사용될 수 있다. 

 

1) 두 그룹 A, B의 관측값을 합친다.