1. 계열상관 검정
시계열의 자기상관(=계열상관) 여부를 파악하는 방법에 대해 알아보자. 이는 잔차를 시각화하거나 통계적인 검정을 통해 확인할 수 있다. 본 포스팅에서는 통계적 검정을 이용한 방법에 대해 공부하고자 한다.
먼저 복습을 해보면, 자기상관은 시계열 자료간의 상관이 존재하는 현상을 말하며 시계열 자료의 경우에 더 잘 나타나게 된다. 예측을 위해 시계열 회귀모형을 적합했을 때 잘 적합된 시계열 회귀모형은 오차항에 자기상관이 존재하지 않으며 이는 이전 시점의 시계열 값(들)이 자기상관 정보를 잘 반영했다는 말과 같다. 만약 적합 후 남은 잔차(즉, 현 시계열 값에서 전 시계열 값의 영향을 제거하고 남은)들이 자기상관을 가지고 있다면 회귀모형에 변수를 추가하거나 원자료의 변환 등의 조치를 취하여 오차항의 자기상관이 없도록 만들어줘야한다. 이제부터 오차항의 자기상관(=계열상관)의 여부 검정에 대해 알아보자!
- 더빈-왓슨 통계량(Durbin-Watson)
더빈-왓슨 통계량은 회귀모형 추정 후에 잔차 $\epsilon_t = y_t - \hat{y}_t$들을 이용하여 오차들 사이의 "1차 자기상관"이 존재하는지 검정하는 방법이다. (시계열 회귀분석에서만 국한적으로 사용되는 것이 아닌 잔차끼리 자기상관성 여부를 검정할 때 사용하는 검정법이라고 기억해두면 좋겠다.)
시차 k인 오차항의 공분산을 구한 식으로, 더빈-왓슨의 경우 k=1에 해당한다.
구체적으로, 오차항($\epsilon_t$)이 1차 자기회귀 함수, $\epsilon_t = \rho + \epsilon_{t-1} + \mu_t $ 의 형태를 가진다고 가정하고 귀무가설 $H_0 : \rho = 0$을 검정함으로써 자기상관의 여부를 확인한다.
양의 계열상관이 강할수록 $d \approx 0$, 음의 상관이 강할수록 $d \approx 4$, 계열 상관이 없을수록 $d \approx 2$에 가까운 값을 가진다.
더빈-왓슨 통계량을 수학적으로 전개하면 다음과 같은 식으로 대체하여 사용할 수 있다.
즉, $d \approx 2(1-\rho) $
$d_L $ 과 $d_U $는 유의수준과 변수의 개수에 따라 다르게 정의된다.
더빈-왓슨 검정을 하기위해서 몇몇 조건이 필요하다. 회귀모형은 상수항을 반드시 포함하고 있어야 하며, 회귀모형의 설명변수에는 종속변수의 시차변수가 존재하지 않아야 한다. 따라서, AR 모형에는 더빈-왓슨 검정방법을 적용할 수 없다.
더빈-왓슨 검정은 시차가 1인 경우의 상관성을 파악하기 때문에 시차 k에 대해서는 알 수 없다.
- 포르맨토(Portmanteau)검정 (= Ljung-Box 검정)
더빈-왓슨 검정의 한계점을 보안한 방법으로 시차 k의 자기상관을 가정할 수 있으며, 설명변수로 종속변수의 시차변수들이 허용된다. 즉, 귀무가설 $H_0 : \rho_1(e) = \rho_2(e) = \dots = \rho_k(e) = 0$ 에 대해 검정통계량은 다음과 같다.
$Q = n(n+2)\sum_{k=1}^h \frac{\hat{\rho}_k^2(e)}{n-k} ~ Chiq_\alpha^2 (h-p-q)$
여기서, $\hat{\rho}_k$는 시차 j의 표본자기상관계수이고, h는 검정을 원하는 시차의 크기이며(주로 h=1,3,5,10,20 을 사용), p와 q는 적합된 ARIMA 모형에서의 차수이다.
- ACF (박스시계열 분석, 북마크)
2. 단위근 검정
단위근 검정은 (비정상) 시계열에 대해 확률적 추세 여부를 검정하며(비정상 시계열인지 검정하는 문제로 귀결), 확률적 추세가 존재할 경우 일반적으로 차분을 수행하여 정상성을 만족하도록 한다. 또한, MA 모형과는 상관이 없고 AR이 포함된 모형과 연관이 있다.(MA 모형은 본질적으로 정상성을 만족한다. (wald 조건))따라서, ARMA모형에서 정상성 만족여부는 AR의 구조에 의해 결정된다.
먼저, 비정상 시계열은 대표적으로 다음와 같은 특징을 가지며, 단위근 검정과 관련이 있는 추세에 대해 자세히 알아보자
- 시점 t에 따라 평균이 다르거나
- 시점 t에 따라 분산이 다르거나
- 시차 h마다 공분산이 다르다.
- 추세나 계절성을 가진다.
추세는 결정적 추세(deterministic trend)(또는 비확률적 추세)와 확률적 추세(stochastic trend)로 나뉜다. 결정적 추세는 방정식으로 직접 결정할 수 있는 추세이다. 즉, $y_t = ct+\epsilon_t$은 결정적 추세(ct)를 가지며 시간에 따라 상승하거나(c:양수) 하강하는(c:음수) 형태에 각 점에서 작은 변동을 가진다.
반면, 확률적 추세(stochastic trend)는 $y_t = c+y_{t-1} + \epsilon_t ( \epsilon_t ~ i.i.d(0,\sigma^2) )$의 경우와 같이 과정의 랜덤 성분으로($y_{t-1}$) 인해 각 실행에서 변화를 가져올 수 있다.
추세성분이나 계절성분과 같이 결정적 추세에 의해 비정상성이 나타나는 경우에는 이들 성분을 모형화하여 미래 값에 대한 예측을 할 수 있지만 확률보행과정과 같이 확률적 추세를 가지는 경우에는 차분을 시행한 후 예측을 수행한다.
이렇듯 단위근 검정을 통해 추세가 존재할 경우 확률적인지 결정적인지 여부를 미리 판단하여야 한다. 기본적인 방법으로 DF(Dickey and Fuller) 검정, ADF(Augmented DIckey-Fuller) 검정, PP(Phillips-Perron), Zivot-Andrews, ADF-GLS 검정이 있다.
- DF(Dickey-Fuller Test) 검정 ($\tau$ 검정)
DF 검정은 단위근 검정방법의 가장 근간이 되는 검정법이다. DF 검정 이후부터 소개될 단위근 검정은 DF검정을 각기 다른식으로 보완한 방법이라고 생각하면 된다. 주어진 시계열 $y_t$ 의 비정상성 여부는 주어진 시계열 $y_t$ 를 차분하여 그를 다시 $y_{t-1}$ 에 회귀하여 얻는 계수의 추정치가 0 인지 0 보다 작은지를 검정하는 문제로 귀결된다. 즉, 1차분한 시계열이 정상시계열인지 비정상시계열인지 검정한다. DF 검정은 임의보행 과정이 상수항(drift)를 가질 경우, 그리고 비확률 추세를 포함할 경우 등을 고려하여 다음의 세 가지 경우에 대해 각각의 귀무가설을 검정할 수 있다.
case 1. [상수항 X , 추세 X] $y_t = \phi_1y_{t-1} + \epsilon_t , \epsilon ~ WN(0,\sigma^2)$
case 2. [상수항 O , 추세 X] $y_t = \phi_0 + \phi_1y_{t-1} + \epsilon_t , \epsilon ~ WN(0,\sigma^2)$
case 3. [상수항 O , 추세 O] $y_t = \phi_0 + \delta t + \phi_1y_{t-1} + \epsilon_t , \epsilon ~ WN(0,\sigma^2)$
위의 모형을 보면, AR(1) 의 형태를 띤다는 것을 알 수 있다. 만약 모형이 stationary 하다면, |\phi_1|$ < 1 일 것이다(AR(1) 모형의 정상성 조건에 따라). 반면 non-stationary 하다면 $|\phi_1|$ = 1 혹은 > 1 일 것이다. 이는 확률보행(임의보행)과정을 떠올리면 알 수 있다. ( $\phi$ = 1 ). stationary의 여부는 1을 기준으로 결정된다. 이 때 1을 unit-root (단위근) 이라고 한다. (내 생각에 단위근은 모델을 비정상시계열로 만들어주는 경계값 ? 이라는 생각이 든다.)
원리는 다음과 같다.
식의 양변에 t-1시점의 값을 빼준다.
$y_t - y-{t-1}= \phi_1y_{t-1} -y_{t-1}+ \epsilon_t$
$\bigtriangleup y_t = (\phi_1 - 1)y_{t-1} + \epsilon_t$
위 식을 바탕으로 $H_0 : \phi$ = 1 (차분시계열이 정상성만족, 원 시계열이 비정상) , $H_1 : \phi$ < 1 (원 시계열이 평균 0 인 정상 시계열(i)이거나, 평균이 0 이 아닌( $\frac{\alpha_0}{(1-\phi_1)}$) 정상시계열(ii)이거나, 비확률추세 주변에서 정상적인 시계열) 로 세운다. 이는 $\rho = \phi - 1$라고 할 때, $H_0 : \rho = 0$, $H_1 : \rho < 0$ 라고 세우는 것과 동일하게 된다.
case 2와 case 3의 경우도 마찬가지로 식의 양변에 t-1 시점의 값을 빼준다.
case 2 : $y_t - y-{t-1}= \phi_0 + \phi_1y_{t-1} - y-{t-1} + \epsilon_t $
$\bigtriangleup y_t = \phi_0 + (\phi_1 - 1)y_{t-1} + \epsilon_t$
case 3 : $y_t - y-{t-1} = \phi_0 + \delta t + \phi_1y_{t-1} - y-{t-1}+ \epsilon_t$
$\bigtriangleup y_t = \phi_0 + \delta t + (\phi_1 - 1)y_{t-1} + \epsilon_t$
위 식을 바탕으로 $H_0 : \phi$ = 1 , $H_1 : \phi$ < 1 로 세운다. 이는 $\rho = \phi - 1$라고 할 때, $H_0 : \rho = 0$, $H_1 : \rho < 0$ 라고 세우는 것과 동일하게 된다.
$\rho$에 대한 검정통계량 값을 디키-풀러(DF) 검정통계량 또는 $\tau$ 검정통계량이라 한다. 주의할 점은 각각의 DF 검정에 있어서 $\rho$ =0 을 검정하기 위한 타우 검정통계량의 임계치가 각각 다르다는 것이다. $\rho$이 기각될 경우, 즉 정상 시계열의 경우 통상적인 t 검정을 적용할 수 있음
- ADF(Augmented Dickey-Fuller Test) 검정
ADF검정은 DF검정을 보완한 방법이다. DF 검정을 위한 세가지 모형 설정 모두 오차항이 계열상관 되어 있지 않다는 가정이 전제된다. 오차항의 계열상관 되어 있을 경우, 이를 고려하기 위해 고안된 다음과 같은 모형 설정으로부터 오차항의 자기상관에 대한 문제를 제거한 단위근 검정을 ADF 검정이라고 한다. ADF 검정은 설명변수에 시차를 갖는 차분값을 충분히 포함시킴으로써 계열상관의 문제를 고려하고 있다.
$\bigtriangleup y_t = \phi y_{t-1} + \sum_{i=1}^p \phi_i \bigtriangleup y_{t-1} +\epsilon_t $
$\bigtriangleup y_t = \phi_0 + \phi y_{t-1} + \sum_{i=1}^p \phi_i \bigtriangleup y_{t-1} +\epsilon_t $
$\bigtriangleup y_t = \phi_0 + \ + \phi y_{t-1} + \sum_{i=1}^p \phi_i \bigtriangleup y_{t-1} +\epsilon_t $
증대된 항의 개수(p)는 오차항의 계열 상관이 없어지기 충분한 정도로 결정한다. Said-Dickey(1984, 1985)는 차분 추가항을 충분히 추가시켜 줄 경우 산출되는 검정통계량은 자기상관 효과가제거된 상태에서 도출되어지는 효과를 가지게 되므로 그 분포가 DF 검정통계량과 동일하게 된다는 사실을 증명하였다(Lee, 2009). 따라서, $\rho$ =0 에 대한 ADF 검정과 DF 검정은 동일한 임계값을 사용한다.
위의 모형 설정에 대한 원리를 알아보기 위해 AR(2) 모형으로 생각해보자. 편의상 상수항과 추세는 없다고 가정할 것이다.
$y_t = \phi_1y_{t-1} + \phi_2y_{t-2} + \epsilon_t , \epsilon ~ WN(0,\sigma^2)$
위 식에서는 단위근의 유무를 판단하기 위한 귀무가설과 대립가설을 세우기가 쉽지 않다. 따라서 식을 우리가 익숙한 AR(1) 모형과 비슷한 형태로 만들어 줄 것이다.
$y_t = \phi_1y_{t-1} + \phi_2y_{t-2} + \epsilon_t $
$= \phi_1y_{t-1} + \phi_2y_{t-1} - \phi_2y_{t-1} + \phi_2y_{t-2}+\epsilon_t$
$= (\phi_1 + \phi_2) y_{t-1} + \phi_2 (y_{t-1} - y_{t-2}) + \epsilon_t $
$= \rho y_{t-1} - \phi_2 \bigtriangleup y_{t-1} + \epsilon_t $
where $\rho = \phi_1 + \phi_2$
위 식을 바탕으로 $H_0 : \rho = 0$ , $H_1 : \rho = 1$ 로 세운다.
3. 정상성 검정
시계열 분석에서 단위근(unit root)과 정상성(stationarity)에 대한 검정에는 다소간의 혼란이 존재한다.
- KPSS(Kwiatkowski-Phillips-Schmidt-Shin Test) 검정
KPSS 검정은 1종 오류의 발생가능성을 제거한 단위근 검정 방법이다. DF 검정, ADF 검정과 PP 검정의 귀무가설은 단위근이 존재한다는 것이나, KPSS 검정의 귀무가설은 정상 과정 (stationary process)으로 검정 결과의 해석 시 유의할 필요가 있다. 단위근 검정과 정상성 검정을 모두 수행함으로서 정상 시계열, 단위근 시계열, 또 확실히 식별하기 어려운 시계열을 구분하였다.
KPSS 검정은 단위근의 부재가 정상성 여부에 대한 근거가 되지 못하며 대립가설이 채택되면 그 시계열은 trend-stationarity(추세를 제거하면 정상성이 되는 시계열)을 가진다고 할 수 있습니다. 때문에 KPSS 검정은 단위근을 가지지 않고 Trend- stationary인 시계열은 비정상 시계열이라고 판단할 수 있습니다.
KPSS 검정에서는 다음과 같은 모델을 고려한다.
$y_t = ct + r_t + \epsilon_t , \epsilon_t ~ i.i.d. (0,\sigma^2_u)$
t : 결정적 추세 $r_t$ : 확률적 추세
$y_t$가 추세정상 시계열이기 위해서는 $\sigma^2_u$ = 0 이어야 한다. 그래야만 $r_t$가 상수가 되어, $y_t$가 확정적 추세와 안정적인 오차항의 합으로 구성되기 때문이다. 반면, 단위근 대립가설은 $\sigma^2_u$ > 0을 의미한다. KPSS(1992)는 이와 같은 가설을 검정하기 위하여 다음과 같은 LM 통계량을 제안하였다.
$LM = T^{-2} \sum_{t=1}^T \frac{S_t^2}{s^2}$
$S_t^2$는 잔차의 부분합으로 다음과 같이 계산한다.
$S_t^2 = \sum_{i=1}^t \hat{\epsilon}_i $
참고 : blog.naver.com/PostView.nhn?blogId=yonxman&logNo=220960992282data-newbie.tistory.com/38
'Time Series analysis' 카테고리의 다른 글
개입분석(intervention analysis) (0) | 2020.12.11 |
---|---|
전이함수모형(transfer function) (0) | 2020.11.24 |
ARIMA 오차 회귀 모형 (0) | 2020.11.23 |
정상시계열과 비정상시계열 (0) | 2020.10.07 |
시계열(time series) (0) | 2020.09.14 |
댓글