본문 바로가기
Statistics/수리통계학

충분통계량과 완비통계량

by 뚜찌지롱 2020. 3. 16.

충분통계량에 대해 간단히 설명해보고자 한다.

 

어떤 분포를 따르는 확률표본 $X_1,X_2,\cdots ,X_n$가 존재한다고 하자. 모수 $\theta$를 추정하기 위해 n개의 표본을 이용할 수도 있지만, n개의 표본을 더한 하나의 값만으로도 모수를 추정할 수 있다.

 

=> 여기서 $\sum x_i$을 충분통계량이라고 하고, 그 의미는 n개의 표본이 가지고 있는 $\theta$에 대한 모든 정보와 동일한 정보력을 가지며(sufficiency), 단순한 형태(minimal type)을 띄는 것으로 설명할 수 있다.

 

충분통계량에 대한 그림이 어느 정도 그려졌을거라고 생각한다. 이제 충분통계량의 이론적 정의에 대해 알아보자.

 

[충분통계량] 

 

$X_1,X_2,\cdots,X_n$ ~ $f(x;\theta)$로부터의 확률표본이라고 하자. 어떤 통계량 $Y=u(X_1,X_2,\cdots,X_n)$에 대해, $Y=y$일 때, $X=(X_1,X_2,\cdots,X_n)$의 조건부분포, 즉 $X|Y=y$의 분포가 $\theta$에 의존하지 않을 때, $Y$를 $\theta$에 대한 충분통계량(Sufficient Statistic or S.S.)이라고 한다. 

 

통계량 조건부분포가 모수 $\theta$에 의존하지 않는다는 것은 Y(통계량)가 이미 $\theta$에 대한 모든 정보를 설명하고 있기 때문에, Y가 주어지고 나머지 정보(n개의 표본)는 $\theta$를 설명하는 데 아무런 도움을 주지 못한다는 뜻이다.

 

But, 이론적 정의에 따라 S.S.임을 보이기 위해서는 Y의 분포를 알아야 하기 때문에 매우 번거롭다. 다음의 네이만-피셔의 인수분해 정리를 통해 Y의 분포를 모르는 상태에서도 편리하게 충분통계량을 찾자.

 

[인수분해 정리] : Factorixation Theorem

 

$X_1,X_2,\cdots,X_n$ ~ $f(x;\theta)$로부터의 확률표본이라고 하자. 통계량 $Y=u(X_1,X_2,\cdots,X_n)$가 $\theta$에 대한 충분통계량이기 위한 필요충분조건은 joint p.d.f가 다음의 형태

$f(x_1;\theta)f(x_2;\theta) \cdots f(x_n;\theta)$ = $g[u(x_1,x_2,\cdots,x_n);\theta]h(x_1,x_2,\cdots,x_n)$

로 분해되는 경우이다.

분해된 식을 살펴보면 , $\theta$에 대한 n개의 표본이 가진 정보 = $\theta$에 대한 통계량 Y가 가진 정보 x 정보없음

으로 볼 수 있겠다. 

 

(Remark)

1. 충분통계량의 일대일 함수는 역시 충분통계량이다.

2. 최대가능도추정량이 유일한(unique)경우에는 반드시 충분통계량의 함수로 주어진다.

 

충분통계량은 여러 개가 존재할 수 있다. 이 때 같은 정보력을 가지면서 가장 단순한 형태인 충분통계량, 즉 최소충분통계량을 찾기 위해서는 완비성(completeness)의 개념을 알아야 한다. 결론부터 말하자면 '충분완비통계량은 최소충분통계량임'이 알려져있다. 

 

완비성을 배우기 전에, 분포족의 개념을 알 필요가 있다. 왜냐하면, 완비성은 분포족이 가지는 성질이기 때문이다.

 

[분포족] : family of distribution 

 

모수가 어떤 범위 내에 있을 때 분포들의 모임이다. 예를 들어, {$ B(1,\theta) , 0<\theta<1 $}일 때, $\theta$가 고정되면 하나의 분포이지만, $\theta$ 범위 내의 베르누이 분포들을 분포족이라고 한다. 

 

[완비성] : completeness

 

통계량 Y가 분포모임의 한 원소를 확률밀도함수로 가진다고 하자. 모든 $\theta \in \Theta$에 대해 다음의 조건

$E_\theta[\varphi(Y)]\overset{\theta} = 0,   \varphi : \theta$ 에 무관한 함수 

을 만족하는 $\varphi$

$\varphi(y)\overset{y}=0$

뿐이라면, 위 분포족이 완비성을 가진다고 하고, Y를 완비통계량(Complete Statistic)이라고 한다.

 

(Remark)

완비성은 본질적으로 확률분포의 모수($\theta$)가 통계량($Y$)을 통해 추정될 수 있음을 보장해주는 조건으로 이해될 수 있다. 즉, 완비성은 서로 다른 모수값을 가지는 두 분포는 서로 구분(distinct)됨을 보장해주는 조건이다. 

위에서 말했듯이 완비통계량의 함수로 이루어지는 불편추정량은 유일(unique)하게 존재한다는 사실을 보이는 도구로도

이용된다.

 

[완비충분통계량] :Complete Sufficient statistic or C.S.S.

 

통계량 $Y$가 $\theta$에 대한 충분통계량이며 동시에 완비통계량일 때, 통계량 $Y$를 $\theta$에 대한 완비충분통계량이라고 한다.

 

(Remark) 

통계량 $Y$의 분포모임이 지수족(exponential family)에 속하는 경우에는 모수$\theta$에 대한 완비충분통계량을 손쉽게 구할 수 있다. 지수족은 다음에 설명하겠다.

 

[지수족] : exponential family

 

다음의 조건 

(ⅰ) $f(x;\theta) = exp[\sum_{j=1}^{k} c_j(\theta) T_j(x)+ d(\theta)+ S(x)]I_A(x)$

(ⅱ) $A=[x|f(x;\theta) >0]$ 가 $\theta$에 의존하지 않는다.

을 만족하는 경우, $[f(x;\theta);\theta\in\Theta]$가 지수족에 속한다.

 

[지수족과 완비충분통계량]

$[f(x;\theta);\theta\in\Theta]$가 지수족에 속하면 $Y=[T_1(X),T_2(X),\cdots,T_k(X)]$는 $\theta$에 대한 완비충분통계량(C.S.S.)이 된다.

$X_1,X_2,\cdots,X_n$이 지수족의 확률표본일 때, $Y=[\sum_{i=1}^{n}T_1(X_i),\sum_{i=1}^{n}T_2(X_i),\cdots,\sum_{i=1}^{n}T_k(X_i)]$는 $\theta$에 대한 완비충분통계량이 된다.

 

[Basu 정리] 

 

(ⅰ) $Y=u(X_1,X_2,\cdots,X_n)$가 $\theta$에 대해 완비충분통계량이고

(ⅱ) $Z=v(X_1,X_2,\cdots,X_n)$의 분포가 $\theta$에 의존하지 않으면

두 통계량 Y와 Z는 독립이다.

 

위 정리에서 분포가 $\theta$에 의존하지 않는다는 것은 $\theta$에 대한 어떠한 정보도 없는 통계량으로 $\theta$에 대한 보조통계량(ancillary statistic)이라고 한다.

바수정리는 통계량 간의 독립성을 보이는 도구로 자주 이용된다. 하지만 바수정리를 이용하기 위해서는 통계량의 완비성을 보여야 하는데, 일반적으로 통계량의 완비성을 보이기 힘들지만 지수족인 경우는 완비성을 따로 증명할 필요가 없다. 즉, Basu 정리는 $\theta$에 대한 C.S.S.와 보조통계량간의 독립성에 대한 정리라고 할 수 있다.

 

(Remark)

Basu 정리는 Lehmann-Scheffe의 정리를 이용하여 최소분산불편추정량을 찾는 계산과정에 유용하게 사용된다.

 

 

 

 

 

댓글