본문 바로가기

Time Series analysis7

Derivate-DTW(Derivate Dynamic Time Warping) 이전 포스팅에서 다루었던 DTW는 '속도 또는 길이에 따라 움직임이 다른 두 시계열간의 유사성(거리)을 측정'하는 알고리즘이라고 소개하였다. 많은 분야에서 DTW가 사용되고 있지만, DTW 알고리즘에는 다음의 2가지 알려진 문제점이 있다. 와핑경로(Warping path) 계산 시에 특이점(Singularities)이 발생한다. DTW 알고리즘을 통해 계산된 와핑경로가 올바른지 알 수 없다. 1. 특이점(Singularities) 첫번째 문제로 언급한 특이점은 다음의 상황을 일컫는다. 특이점이란, 위의 그림에서 박스친 부분과 같이 한 패턴(시계열자료)에서 여러 개의 점이 다른 패턴의 한 점에 집중되는 현상을 말한다. 이 특이점은 한 시계열 패턴이 굴곡을 가지는 경우 즉, X(시점) 값에 대한 Y(시계열 .. 2021. 6. 29.
개입분석(intervention analysis) 1. 개입분석 개입분석은 개입의 발생시점을 아는 경우 개입의 효과를 모형에 포함시키고 이후의 분석에 반영하고자하는 것이 주 목적이다. 개입의 효과에 대한 추정치은 유의성 검정을 거쳐야한다. 개입효과를 포함하는 개입모형은 다음과 같이 표현된다. $y_t = \frac{w(B)}{\delta(B)} B^b I_t^{(T)} + \frac{\theta(B)}{\phi(B)}$ 위 식의 첫 번째 항은 개입효과를 나타내고, 두 번째 항은 시계열 자체의 움직임을 나타내는 ARIMA 모형 부분이다. $I_t^{(T)}$ 는 개입변수로 개입의 효과가 지속되는 기간에 따라 펄스함수 또는 계단함수로 정의된다. b는 개입효과에 대한 지연시간으로 개입의 효과가 개입 시점에 즉시 반영되는 경우에는 영(0)이 된다. 개입분석의 .. 2020. 12. 11.
전이함수모형(transfer function) 전이함수 모형은 연속관측된 다변량 시계열 자료로부터 종속변수에 영향을 미치는 독립변수인 시계열 변수간 인과관계를 분석하는 대표적인 형태라고 할 수 있으며 단변량 ARIMA 모형의 확장이다. 보통 다른 포스팅에서는 "입력시계열과 출력시계열로 사용되는 시계열 사이의 관계를 회귀모형의 형태로 표현한 것" 이 라고도 표현하며, 이 때 입력시계열은 독립변수를, 출력시계열은 종속변수를 의미한다. ARIMA 모형은 전이함수모형에서 입력계열이 없는 경우이다. 즉, 종속변수에 영향을 미치는 추가적인 독립변수(공분산, 잠재변수)를 고려하지 않은 모형이다. 2020. 11. 24.
ARIMA 오차 회귀 모형 일반적으로 선형회귀식에서 회귀계수에 대해 OLS추정량을 구하게 되는데, 이는 오차가 Gauss-Markov 조건을 만족할 때 가장 좋은 추정량이 된다(BLUE: Best Linear Unbiased Esitimator). 가우스-마코브의 조건으로는 다음과 같다. 1. 오차변수의 기댓값은 0 이다. 2. 오차변수와 독립변수의 공분산은 0이다. 3. 오차변수의 분산은 일정한 상수이다. -> 이분산성(heteroskedasticity) 4. 오차변수들 사이의 공분산은 0이다. -> 계열 상관성(Serial Correlation) 5. 오차변수는 정규분포를 따른다. -> 조건을 추가적으로 만족하면 MVUE(Minimum Variance Unbiased Estimator) 이분산성 또는 계열상관이 존재함에도 불구.. 2020. 11. 23.
시계열 검정 (자기상관 검정, 단위근 검정, 정상성 검정) 1. 계열상관 검정 시계열의 자기상관(=계열상관) 여부를 파악하는 방법에 대해 알아보자. 이는 잔차를 시각화하거나 통계적인 검정을 통해 확인할 수 있다. 본 포스팅에서는 통계적 검정을 이용한 방법에 대해 공부하고자 한다. 먼저 복습을 해보면, 자기상관은 시계열 자료간의 상관이 존재하는 현상을 말하며 시계열 자료의 경우에 더 잘 나타나게 된다. 예측을 위해 시계열 회귀모형을 적합했을 때 잘 적합된 시계열 회귀모형은 오차항에 자기상관이 존재하지 않으며 이는 이전 시점의 시계열 값(들)이 자기상관 정보를 잘 반영했다는 말과 같다. 만약 적합 후 남은 잔차(즉, 현 시계열 값에서 전 시계열 값의 영향을 제거하고 남은)들이 자기상관을 가지고 있다면 회귀모형에 변수를 추가하거나 원자료의 변환 등의 조치를 취하여 오.. 2020. 10. 25.
정상시계열과 비정상시계열 데이터가 정상성을 가지지 않으면 분석이 어렵기 때문에 정상성을 갖도록 만드는 전처리를 하게 된다. 보통 평균이 일정하지 않으면 차분을 취하고, 분산이 일정하지 않으면 변환을 취한다. 1. 정상성 데이터, 비정상성 데이터 시계열 자료($y_t$)의 평균과 분산이 t시점에 상관없이 동일할 때와 $y_t와 y_{t-h}$시점의 자기 상관(시점간의 상관관계)은 시차(h)에만 의존하며 시점(t/t-h)에는 의존하지 않을 때 정상성(Stationarity)를 갖는다고 한다. 따라서, 추세나 계절성이 있는 시계열은 정상시계열이 아니다. (서로 다른 시점의 값에 영향을 줌). * 정상성 가정에는 독립성 가정이 포함되어 있지 않음에 유의 !! 정상시계열 비정상시계열 2. 백색잡음(White Noise) 정상시계열의 대표.. 2020. 10. 7.