[통계분석] 시계열 분석
- -
목차
01 시계열 자료
∙시간의 흐름에 따라 관측된 데이터
∙시계열 분석을 위해서는 정상성을 만족해야 함
02 정상성
∙시계열의 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것
∙미래는 확률적으로 과거와 동일하다는 것.
정상 시계열의 조건
∙평균은 모든 시점 (시간t) 에 대해 일정하다. (\
∙분산은 모든 시점(시간t)에 대해서 일정하다.
∙공분산은 시점(시간t)에 의존하지 않고, 단지 시차에만 의존한다.
정상 시계열로 변환
∙비정상적인 시계열이라면 다루기 어려운 자료로 분석을 실시할때 정상적인 시계열로 바꾸는 작업이 필요하다.
∙비정상시계열 자료는 정상성을 만족하도록 데이터를 정상시계열로 만든 후 시계열 분석을 수행한다.
∙평균이 일정하지 않은 경우: 원계열의 차분 사용
∙계절성을 갖는 비정상시계열 : 계절 차분 사용
∙분산이 일정하지 않은 경우 : 변환(transformation)을 통해 정상화(원계열에 자연로그(변환) 사용)
차분이란? 현 시점의 자료 값에서 전 시점의 자료 값을 빼 주는 것을 의미한다.
∙일반차분: 바로 전 시점의 자료를 빼는 것이다.
∙계절차분: 여러 시점 전의 자료를 빼는 방법, 주로 계절성을 갖는 자료를 정상화하는데 사용한다.
∙ 차분도 일정하지 않고 분산도 일정하지 않으면 2가지를 다 행한다.
03 시계열자료 분석방법
03_1 분석방법
회귀분석 방법, box-jenkins방법, 지수평활법, 시계열분해법
03_2자료 형태에 따른 분석 방법
1) 일변량 시계열 분석 (변수가 하나인것을 일변량 시계열이라고 함)
Box-jeckins(ARMA), 지수평활법, 시계열분해법등이 있다.
시간(t)을 설명변수로 한 회귀모형주가, 소매물가 지수 등 하나에 변수에 관심을갖는 경우의 시계열분석이다.
2) 다중 시계열 모형
계량경제 모형, 전이함수 모형, 개입분석, 상태공간분석, 다변량 ARIMA등이 있다.
3) 이동 평균법
1)이동평균법의 개념
과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균을 계산하고 이들의 추세를 파악하여 다음 기간을 예측하는 방법이다. (주식 차트에서 많이 활용한다.)
시계열 자료에서 계절변동과 불규칙변동을 제거하여 추세변동과 순환변동만 가진 시계열로 변환하는 방법으로도 사용됨.
2) 이동평균법의 특징
간단하고 쉽게 미래를 예측할 수 있으며, 자료의 수가 많고 안정된 패턴을 보이는 경우 예측의 품질(Quality)이 높음.
특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치를 부여함.
일반적으로 시계열 자료에 뚜렷한 추세가 있거나 반대로 불규칙 변동이 심한 경우 긴 기간의 평균을 사용함.
AR모형 자기회귀모형 |
∙AR(p): 현 시점의 자료가 p 시점 전의 유한 개의 과거 자료로 설명될 수 있음 (현 시점의 자료는 과거 자료로부터 설명되는 것.) ∙현 시점의 시계열 자료에 과거 1시점 이전의 자료만 영향을 주면 이를 1차 자기회귀모형이라고 하고 AR(1)라고 함 ∙만약 2개의 과거 자료가 현 시점에 영향을 주면 2차 자기회귀모형이라고 하고 AR(2)가 된다. |
MA모형 이동평균모형 |
∙최근 데이터의 평균을 예측치로 사용하는 방법, 각 과거치는 동일 가중치가 주어짐 ∙현 시점의 자료가 유한 개의 과거 백색잡음(정상시계열)의 선형결합으로 표현되었기 때문에 항상 정상성을 만족함 ∙MA(p) : 과거 p 시점 이전 오차들에서 현재항의 상태를 추론한다. |
ARIMA모형 자기회귀 누적 이동평균모형 |
∙현재와 추세간의 관계를 정의한 것, 많은 시계열 자료가 ARIMA 모형을 따름** ∙ARIMA 모형은 비정상시계열 모형이며 차분이나 변환을 통해 AR, MA, ARMA 모형으로 정상화 할 수 있다. <예시 > ∙ARIMA(p, d, q) -> p: AR모형 차수, d: 차분, q: MA모형 차수 ∙ARIMA(1,2,3)이라면 2번 차분해서 ARMA 모형이 될 수 있음 ∙ARIMA(1, 0, 2) : ARMA(1,2) 모형이며, 1번 차분하면 MA(2) 모형이 됨 ∙ARIMA(0, 1, 3) : IMA(1,3) 모형이고 이것을 한번 차분하면 MA(3) 모형이 됨 ∙ARIMA(2, 3, 0) : ARI(2,3)모형이고, 이것을 3번 차분하면 AR(2) 모형이 됨 |
함수명 | 설명 | 자기회귀(AR) | 이동평균(MA) | 자기회귀이동평균(ARMA) |
자기 상관 함수 ACF | ∙Auto-Correlation Function ∙시계열 데이터의 자기상관성을 파악하기 위한 함수 ∙ 시계열의 관측치 𝐘𝐭, 𝐘𝐭⧿𝐤 간 상관계수를 k의 함수 형태로 표시한 것 (k:시간단위) ∙ -1 ≤ autocorr(Y𝐭, Y𝐭⧿𝐤) ≤ 1 ∙k가 커질수록 ACF는 0으로 수렴함 (= 시간이 멀어질수록 자기 상관이 없어진다) |
지수적 감소 | q+1차항부터 절단 모양 | q+1차항부터 절단 모양 |
부분 자기 상관 함수 PACF (Partial ACF) |
𝐘𝐭와 𝐘𝐭⧿𝐤 중간에 있는 값들의 영향을 제외시킨 𝐘𝐭와 𝐘𝐭⧿𝐤 사이의 직접적 상관관계를 파악하기 위한 함수 |
p+1차항부터 절단 모양 (중간값들이 삭제 됐기 때문) |
지수적 감소 | p+1차항부터 절단 모양 |
백색잡음(White Noise) | ∙ 시계열 자료 중 자기상관이 전혀 없는 특별한 경우 ∙ 시계열의 평균이 0, 분산이 일정한 값, 자기공분산이 없는 경우 ∙ 현재 값이 미래 예측에 전혀 도움이 되지 못함, 회귀분석의 오차항과 비슷한 개념 |
- | - |
분해 시계열
시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
분해시계열 분해 요인(종류 반드시 암기)
추세요인 (Trend Factor) |
자료의 그림을 그렸을 때 그 형태가 오르거나 내리는 등 자료가 어떤 특정한 형태를 취할 때 |
계절요인 (Seasonal Factor) |
계절에 따라, 고정된 주기에 따라 자료가 변화하는 경우 |
순환요인 (Cyclical Factor) |
물가상승률, 급격한 인구 증가 등의 이유로 알려지지 않은 주기를 가지고 자료가 변화하는 경우 (주기는 있으나 그 주기가 정확히 무엇인지 알 수 없는 경우) |
불규칙 요인 (Irregular Factor) |
위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인에 의해 발생하는 경우 |
예상 문제
1. 시간의 흐름에 따라 관측된 데이터를 무엇이라고 하는가? 3
1)주성분분석
2)회귀분석
3)시계열자료
4)군집분석
2. 시계열 자료에서 추세가 존재할 때 이를 제거하기 위해 현시점에서 전 시점의 차를 구하는 것을 무엇이라고 하는가?
차분
3. 비정상 시계열을 정상 시계열로 전환하는 방법 중 현 시점의 자료값에서 전 시점의 자료값을 빼 주는 것을 무엇이라고 하는가?
차분
4. 다음 시계열 자료의 정상성(staionary)에 대한 설명 중 가장 부적절한 것은? 3
1) 모든 시점에 대해 일정한 평균을 가진다.
2) 모든 시점에 대해 일정한 분산을 가진다.
3) 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.
4) 모든 분산이 시점에 의존하지 않는다.
공분산은 시점(시간t)에 의존하지 않고 시차에만 의존한다.
5. 다음 중 정상시계열에 대한 설명 중 가장 적절하지 않은 것은? 1
1) 평균이 일정한 경우에 현시점의 자료에서 전 시점의 자료를 빼는 것으로 정상시계열로 변환한다.
2) 비정상시계열 자료는 정상성을 만족하도록 데이터를 정상시계열로 만든 후 시계열 분석을 수행한다.
3) 정상성이란 평균, 분산이 일정하고, 공분산은 단지 시차에만 의존하는 경우를 말한다.
4) 시간에 따라 분산이 일정하지 않은 경우에는 변환을 통해서 정상시계열로 바꿀 수 있다.
해설: 평균이 일정하지 않은 경우 원시시계열에 차분(현 시점의 자료 값에서 전 시점의 자료 값을 빼 주는 것)을 하면 정상 시계열이 된다.
6. ( )은 시점에 상관없이 시계열의 특성이 일정한 것을 의미하며, 이를 만족한다는 것은 다음과 같은 것을 말한다.
(정상성)
1. 평균이 일정하다.
2. 분산이 시점에 의존하지 않는다.
3. 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.
7. 다음이 설명하는 시계열 모형은 무엇인가? PACF(Partial Auto Correlation function)부분자기상관함수
현시점의 자료를 유한 개의 백색잡음의 선형결합으로 표현되었기 때문에 항상 정상성을 만족한다.
자기 상관함수 p+1시차 이후 절단된 형태를 취한다.
8. ARIMA(자기회귀누적이동평균모형)는 기본적으로 비정상 시계열 모형이기 때문에 차분이나 변환을 통해 AR, MA, ARMA 모형으로 정상화 할 수 있다. ARIMA(1,2,3) 에서 ARMA로 정상화 할 때 몇 번 차분했는지를 의미하는가? 2
1. 1
2.2
3.3
4.4
ARIMA(p, d, q) > p: AR모형 차수, d: 차분 , q: MA모형 차수
ARIMA(1,2,3)이라면 2번 차분해서 ARMA 모형이 될 수 있음
9.다음 주 정상시계열에 대한 설명 중 가장 적절하지 않은 것은?
1. 추세요인: 자료의 그림의 그렸을 때 그 형태가 오르거나 내리는 등 자료가 어떤 특정한 형태를 취할 때
2. 계절요인: 고정된 주기에 따라 자료가 변화하는 경우
3. 순환요인: 물가상승률, 급격한 인구 증가 등의 이유로 주기를 가지고 변화하는 자료
4. 불규칙요인: 위 세가지 요인으로 설명할 수 없는 요인에 의해 발생
10. 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 무엇이라 하는가?
분해시계열
해설
분해시계열: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
분해시계열 분해 요인 : 추세요인, 계절요인, 순환요인, 불규칙요인등이 있음
11. 시계열의 분해 요인이 아닌 것은? 4번
1. 추세요인 2. 계열요인 3. 순환요인 4.교효요인
12. 다음 중 분해시계열 요인에 해당하지 않은 것은? 4번
1. 추세요인 2. 계절요인 3. 불규칙요인 4. 정상요인
통계분석의 이해에서 예측하는 부분에서 시계열에 대한 언급이 있다.
2021.08.08 - [데이터분석준전문가(ADsP)] - [통계분석] 통계분석의 이해 1
'데이터분석준전문가(ADsP) > 3과목' 카테고리의 다른 글
[정형데이터 마이닝] 군집분석 (0) | 2021.08.25 |
---|---|
[정형데이터 마이닝 ] 데이터 마이닝 (0) | 2021.08.21 |
[통계분석] 주성분분석 (0) | 2021.08.14 |
[통계분석] 다차원척도법 (0) | 2021.08.14 |
[정형데이터마이닝] 앙상블 분석 (0) | 2021.08.14 |
[통계분석] 통계기초 - 수학기호&통계기호 (1) | 2021.08.12 |
[통계분석] 회귀분석 - 기초 (0) | 2021.08.11 |
[통계분석] 통계분석의 이해 (0) | 2021.08.08 |
소중한 공감 감사합니다