본문 바로가기
Time Series analysis

시계열(time series)

by 뚜찌지롱 2020. 9. 14.

 

 

1. 시계열

 

시계열자료는 시간의 순서에 따라 기록된 데이터들로 생각할 수 있다. 예를 들면, 6개월간의 회사 판매 기록, 주식의 일일 종가, 지역의 실업률, 파도의 높이 등이 있다. 시계열자료는 보통 예측을 목적으로 사용되는데,(앞으로의 시계열에 관한 포스팅은 예측을 목적으로 진행될 것이다.) 이는 직관적으로 생각하면 이해가 가능하다. 시계열자료의 예로 언급했던 6개월간의 회사 판매 기록으로 생각해보자. 특정 제품을 향후에 계속 똑같은 양으로 생산할지 아니면 생산량을 줄일지 결정을 해야한다. 이때, 과거의 판매 기록을 분석하여 미래의 수요량을 예측하면 합리적인 결정을 내리는데 도움을 줄 수 있다는 것이다. 다만, 로또 당첨 번호를 예측하려는 허무한 시도는 하지말자 !

 

 

2. 예측방법

 

이제, 예측을 위한 기본적인 기법(개념)중 일부를 알아보자. 

 

 

① 단순기법(Naive method) : 모든 미래 예측값은 단순하게 마지막 값으로 둔다. 

$\hat{y}_{T+h|T}= y_t .$

 

위 식을 직관적으로 해석하면, " T시점에서 h시점 이후의 예측값은 T시점의 값과 같다. "라고 생각하면 된다.

 

 

② 평균기법(Average method) : 모든 미래 예측값은 과거 데이터의 평균과 같다. 

$\hat{y}_{T+h|T}=\bar{y}=(y_1+\dots +y_T)/T .$

 

위 식을 직관적으로 해석하면, " T시점에서 h시점 이후의 예측값은 T시점까지의 과거 데이터의 평균값과 같다. "라고 생각하면 된다.

 

 

③ 계절성 단순기법(Seasonal naive method) : 단순 기법과 비슷하며, 미래 예측값은 이전 연도의 같은 계절의 마지막 관측값으로 둔다. 

$\hat{y}_{T+h|T} = y_{T+h-m(k+1)} .$

m : 주기

k : [(h-1)/m], [u]는 u의 정수 부분

 

위 식을 직관적으로 해석하면, " T시점에서 h시점 이후의 예측값은 연도(예를 들면, 이전연도)의 같은 계절, 즉 1년 전 관측값과 같다. "라고 생각하면 된다. 계절성 단순 기법의 경우, 이름처럼 계절성이 뚜렷한 데이터를 다룰 때 유용하다. 

 

 

④ 이동평균 기법(Moving Average method) : 미래 예측값은 지정된 기간의 과거 데이터를 평균한 값과 같다.

$\hat{y}_{T+h|T} = \frac{1}{2k+1}\sum_{j=-k}^{k} y_{T+j} .$

 

위 식을 직관적으로 해석하면, T시점에서 앞뒤로 k기간 안의 시계열 값을 평균한 값과 같다. "라고 생각하면 된다. 평균은 데이터의 무작위성을 줄이고 매끄러운 추세 성분만 남긴다는 특징이 있다. 여기서, k는 보통 홀수인데 그 이유는 t시점의 값(가운데 값)과 양 쪽에서 각각 k개의 관측값을 평균하는 것이기 때문에 홀수가 되는 것이 당연하다. 이동평균 기법은 다음 포스팅에도 등장할 MA 모델의 기반이 된다.

 

 

⑤ 단순 지수평활(Simple Exponential Smoothing) : 이전 시계열에 대해 가중을 더하는 방법으로 오래된 관측값일수록 가중이 지수적으로 작아지는 방식으로 미래 예측값을 계산한다. 이 방법은 추세나 계절성이 없는 시계열을 예측할 때 유용하다. 다음에 나오는 예측방법에서는 단순 지수평활이 수준식으로 불리게 될것이다. 

 

$\hat{y}_{T+h|T} = \alpha y_T + \alpha (1-\alpha) y_{T-1} + \alpha(1-\alpha)^2 y_{T-2}+ \dots$

 

$\alpha$는 평활 매개변수로 최근 시계열에 대한 가중의 정도이다. $\alpha \approx 1$ 이면 평활이 작다하고 표현하며, 이 때 예측값은 최근 시계열값과 비슷해지게 된다. $\alpha$는 [0,1] 사이 값을 가지며, 가중치들의 합은 근사적으로 1이 될 것이다. 

 

+ 단순 지수평활식의 유도

 

T시점에서 한 시점 앞의 예측값은 가장 최근 시계열값 $y_T$ 와 이전 예측값 $\hat{y}_{T|T-1}$ 의 가중평균과 같다.

$\hat{y}_{T+1|T}= \alpha y_T + (1-\alpha) \hat{y}_{T|T-1}$

 

$\hat{y}_{T|T-1} =  \alpha y_{T-1} + (1-\alpha) \hat{y}_{T-1|T-2}$ 을 위 식에 대입하는 방식으로 계산하면 더 오래된 관측값에 가중치가 지수적으로 감소하는 형태로 식이 전개 된다. 

 

 

⑥ 홀트의 선형 추세 기법(Holt's Linear Trend Method) : 단순 지수평활에 추세를 반영한 모델로 예측함수가 더이상 평평하지 않고 추세를 가진다. 이 방법은 또한 이중 지수 평활이라고 불린다. 

 

$\hat{y}_{t+h|t} = l_t + h b_t$

$l_t = \alpha y_t + (1- \alpha)(l_{t-1}+b_{t-1})$ (t 시점에서 시계열 수준 추정값)

$b_t = \beta (l_t -l_{t-1})+(1-\beta)b_{t-1}$ (t 시점에서 시계열의 추세(기울기) 추정값)

 

매개변수는 모두 [0,1] 사이에 있다. $l_t$는 t시점에서 시계열의 수준값(또는 평활된 값)이다. 위 식을 직관적으로 해석하면, 두번째 평활식(수준식)은 t시점의 시계열 관측값과 (t-1시점에서의 시계열의 수준값 + t-1시점의 추세)를 가중평균한 값이고,

세번째 추세식은 t시점과 t-1시점의 추세차이(추세 이전 추정값)와 t-1시점의 추세를 가중평균한 것이다. 이렇게 하여

$\hat{y}_{t+h|t}$은 마지막 관측값에 대한 수준값 + 마지막 추세 추정값의 h배 한 값으로 해석할 수 있다. 

 

 

홀트-윈터스의 계절성 기법(Holt-Winters seasonal method) : 시계열의 계절성을 잡아내기 위해 홀트의 선형 추세 기법에 계절성을 반영한 모델로 예측식은 수준 $l_t$, 추세 $b_t$, 계절 $s_t$ 로 이루어져 있다. m은 계절성의 주기로 나타낸다. 예를 들어, 분기별 데이터에서는 m=4 이고, 월별 데이터에서는 m=12 가 된다. 이 방법은 또한 삼중 지수 평활이라고 불린다. 

 

계절 성분의 성질에 따라 이 기법은 덧셈과 곱셈으로 나타낼 수 있다. 

 

- 덧셈기법(additive)

 

$\hat{y}_{t+h|t} = l_t + h b_t + s_{t+h-m(k+1)}$

$l_t = \alpha (y_t - s_{t-m}) + (1- \alpha)(l_{t-1}+b_{t-1})$ (t 시점에서 시계열 수준 추정값)

$b_t = \beta (l_t -l_{t-1})+(1-\beta)b_{t-1}$ (t 시점에서 시계열의 추세(기울기) 추정값)

$s_t = \gamma (y_t - l_{t-1} - b_{t-1}) + (1-\gamma)s_{t-m}$

 

k : [(h-1)/m], [u]는 u의 정수 부분으로 이 값은 계절 성분의 추정값이 관측된 마지막 연도에서 유래하도록 한다. 

두번째 평활식(수준식)은 계절성으로 조정된 관측값($y_t - s_{t-m}$)과 t 시점에 대한 비-계절성 예측($l_{t-1}+b_{t-1}$)을 나타낸다. 

 

 

- 곱셈기법(multiplicative)

 

$\hat{y}_{t+h|t} = l_t + h b_t + s_{t+h-m(k+1)}$

$l_t = \alpha \frac{y_t}{s_{t-m}} + (1- \alpha)(l_{t-1}+b_{t-1})$ (t 시점에서 시계열 수준 추정값)

$b_t = \beta (l_t - l_{t-1})+(1-\beta)b_{t-1}$ (t 시점에서 시계열의 추세(기울기) 추정값)

$s_t = \gamma \frac{y_t}{l_{t-1} - b_{t-1}} + (1-\gamma)s_{t-m}$

 

 

3. 최적화

 

모든 지수 평활법을 응용할 때, 평활 매개변수과 초기값이 필요하다. 예를 들어, 단순 지수평활의 경우에는 $\alpha$와 $\hat{y}_{T|T-1}$ (보통 $l_0$로 표시) 을 선택해야한다. 평활 매개변수는 분석자의 경험에 따라 주관적으로 선택될 수도 있지만 보다 안전하고 객관적인 방법으로 얻어야하며, SSE(오차제곱합)를 최소값으로 갖는 매개변수와 초기값을 구한다.

$SSE = \sum_{t=1}^{T}(y_t-\hat{y}_{t|t-1})^2 = \sum_{t=1}^T e_t^2 .$

 

 

 

 

참고 :  R 응용 시계열분석(저자:나종화)

댓글