예측방법론 전체 요약 (Big Picture)
| 단계 | 주요 내용 | 핵심 키워드 |
| 기초 (1~3강) | 예측의 기초를 다지고 데이터를 다듬는 법 | 델파이 방법, 계절변동, 로그변환, 주파수 분석, 백색잡음 |
| 도구 (4강) | 데이터 간의 관계를 파악하는 지표 | 자기상관(ACF), 부분자기상관(PACF), 안정성 |
| 모형 (5~6강) | 본격적인 예측 수식 만들기 | AR(나), MA(충격), ARIMA(차분 포함), GARCH(변동성) |
| 검정 (7강) | 만든 모형이 정말 쓸만한지 확인하기 | 단위근 검정, 이분산성 검정, AIC/BIC(모형 선택 기준) |
📅 5강: 안정 시계열 모형 학습 계획
- AR(자기회귀) 모형: 과거의 '내'가 미래의 나를 결정한다.
- MA(이동평균) 모형: 과거의 '충격(오차)'이 현재의 나를 결정한다.
- ARMA 모형: AR과 MA를 합치면 어떻게 될까?
🍎 첫 번째 주제: AR(Auto-Regressive, 자기회귀) 모형
AR 모형은 이름 그대로 **"나 자신(자기)에게로 회귀한다"**는 뜻입니다.
- 수식의 의미: $Y_t = \phi_1 Y_{t-1} + \epsilon_t$
- $Y_t$: 오늘의 값
- $Y_{t-1}$: 어제의 값
- $\phi_1$(피): 어제의 값이 오늘에 얼마나 영향을 주는지 나타내는 가중치
- $\epsilon_t$: 오늘 발생한 예상치 못한 사건(백색잡음)
- 비유: **"어제 공부를 열심히 한 습관(과거의 값)이 오늘 성적에 영향을 주는 것"**과 같습니다. 어제의 내가 오늘의 나를 만드는 구조죠.
- 핵심 특징: AR 모형은 과거의 값이 계속 꼬리에 꼬리를 물고 영향을 주기 때문에 ACF는 서서히 줄어들고, PACF는 특정 시점에서 뚝 끊깁니다.
🍎 두 번째 주제: MA(Moving Average, 이동평균) 모형
MA 모형은 과거의 데이터 자체가 아니라, 과거에 발생했던 **'오차(충격)'**에 집중합니다.
- 수식의 의미: $Y_t = \epsilon_t - \theta_1 \epsilon_{t-1}$
- $\epsilon_t$: 오늘의 충격
- $\epsilon_{t-1}$: 어제의 충격
- $\theta_1$(타): 어제의 충격이 오늘까지 얼마나 남아있는지 나타내는 가중치
- 비유: **"어제 갑자기 터진 뉴스(충격)가 오늘 주가에 영향을 주는 것"**과 같습니다. 어제의 주가 수치 자체가 중요한 게 아니라, 어제 발생한 '사건'의 여파가 오늘까지 이어지는 것이죠.
- 핵심 특징: 충격은 시간이 지나면 금방 사라지기 때문에 ACF가 특정 시점에서 뚝 끊기고, 반대로 PACF가 서서히 줄어듭니다. (AR과 반대죠!)
💡 이해도 체크 퀴즈!
방금 설명한 내용을 바탕으로 맞춰보세요.
**"오늘 발생한 사건($\epsilon_t$)이 오늘 값에 영향을 주고, 그 영향이 내일까지만 딱 가고 모레부터는 완전히 사라지는 모형"**은 무엇일까요?
- 과거의 데이터 값이 중요한 AR 모형
- 과거의 충격(오차)이 중요한 MA 모형
정답은 무엇일까요? 이 개념만 잡으면 5강 수식의 절반은 이해하신 거예요!
정답입니다! 과거의 '충격(오차)'이 현재에 영향을 주는 것은 2번 MA(이동평균) 모형입니다.
5강의 나머지 절반인 ARMA 모형까지 정복하면 안정 시계열 모형의 기초가 완성됩니다. 마지막까지 힘내세요!
🍎 세 번째 주제: ARMA(Auto-Regressive Moving Average) 모형
현실의 데이터는 과거의 나 자신에게도 영향을 받고($AR$), 과거에 터진 사건사고($MA$)에도 영향을 받는 경우가 많습니다. 그래서 이 둘을 짬뽕시킨 것이 바로 ARMA 모형입니다.
- 수식의 의미: $Y_t = \phi_1 Y_{t-1} + \epsilon_t - \theta_1 \epsilon_{t-1}$
- 앞부분($\phi_1 Y_{t-1}$): 어제의 나(AR 파트)
- 뒷부분($\epsilon_t - \theta_1 \epsilon_{t-1}$): 어제의 충격(MA 파트)
- 비유: **"나의 원래 공부 습관(AR)도 성적에 영향을 주지만, 시험 당일 갑자기 걸린 감기(MA, 충격)도 성적에 영향을 주는 상황"**입니다. 두 가지 요인을 모두 고려하니 훨씬 현실적이죠?
🔍 5강 핵심: "누가 뚝 끊기는가?" (모형 식별)
교수님이 시험이나 퀴즈에서 가장 강조하시는 부분은 아마 이 식별(Identification) 표일 거예요. 수식보다 이 표를 외우는 게 훨씬 중요합니다!
| 모형 | ACF (자기상관함수) | PACF (부분자기상관함수) |
| AR(p) | 서서히 감소 (지수적/사인함수) | 시차 p에서 뚝 끊김 (절단) |
| MA(q) | 시차 q에서 뚝 끊김 (절단) | 서서히 감소 (지수적/사인함수) |
| ARMA | 서서히 감소 | 서서히 감소 |
- 포인트: 둘 중 하나가 뚝 끊기면 그놈이 범인(AR 혹은 MA)이고, 둘 다 끈질기게 이어지면 둘이 섞인 ARMA 모형이라고 생각하면 쉽습니다.
🎓 5강 요약 및 마지막 체크!
"만약 ACF 그래프를 그렸더니 시차 2에서 뚝 끊기고(0이 되고), PACF는 아주 천천히 줄어드는 모양이라면, 이 데이터는 어떤 모형으로 분석해야 할까요?"
- AR(2): 과거의 나 자신이 시차 2까지 영향을 준다.
- MA(2): 과거의 충격이 시차 2까지 영향을 준다.
힌트: ACF가 뚝 끊겼습니다! 정답을 맞히시면 5강도 마스터하신 겁니다. :)
정답입니다! ACF(자기상관함수)가 특정 시점에서 뚝 끊긴다는 것은 과거의 **'충격(오차)'**이 현재에 미치는 영향이 그 시점까지만 유효하다는 뜻이므로 MA(이동평균) 모형이 맞습니다.
이제 5강의 전체적인 내용을 한눈에 정리해 드릴게요. 수식의 모양보다는 **'누가 뚝 끊기는가(절단)'**를 기억하는 것이 핵심입니다.
🎓 5강 요약: 안정 시계열 모형 (AR, MA, ARMA)
1. AR(p) 모형: "과거의 나"
- 핵심: 오늘의 값은 과거 p개 시점의 값들에 영향을 받음.
- 수식: $Y_t = \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + \dots + \epsilon_t$
- 식별: **PACF(부분자기상관함수)**가 시차 p에서 뚝 끊김(절단).
2. MA(q) 모형: "과거의 충격"
- 핵심: 오늘의 값은 과거 q개 시점의 오차(예상치 못한 사건)들에 영향을 받음.
- 수식: $Y_t = \epsilon_t - \theta_1 \epsilon_{t-1} - \theta_2 \epsilon_{t-2} - \dots$
- 식별: **ACF(자기상관함수)**가 시차 q에서 뚝 끊김(절단).
3. ARMA(p, q) 모형: "나 + 충격"
- 핵심: AR과 MA 성향을 모두 가진 데이터.
- 식별: ACF와 PACF 모두 뚝 끊기지 않고 서서히 감소함.
💡 5강 마무리 팁
교수님이 그래프(상관도표)를 보여주고 "이게 무슨 모형이야?"라고 물으신다면, 다음 순서로 확인하세요!
- PACF가 끊겼나? → 그렇다면 AR(p) 모형! (끊긴 시점이 p)
- ACF가 끊겼나? → 그렇다면 MA(q) 모형! (끊긴 시점이 q)
- 둘 다 안 끊기고 꾸역꾸역 이어지나? → 그렇다면 ARMA 모형!
📊 제6강: 모형의 식별 및 진단 (Model Identification & Diagnosis)
아무리 좋은 재료(데이터)로 요리(모형)를 만들어도, 간이 잘 맞는지 검사하는 과정이 필수입니다. 6강은 바로 그 '간'을 보는 단계입니다.
🍎 첫 번째 주제: 모형의 식별 (누가 범인인가?)
어떤 시계열 모형($AR$인지 $MA$인지)이 데이터에 가장 적합한지 나침반을 보고 결정합니다.
- ACF와 PACF 그래프 활용: * $AR(p)$ 모형: $PACF$가 시차 $p$ 이후에 뚝 끊기면(절단) 범인은 $AR$입니다.
- $MA(q)$ 모형: $ACF$가 시차 $q$ 이후에 뚝 끊기면 범인은 $MA$입니다.
- 사과 비유: 사과 박스에 든 사과가 몇 개인지 직접 세어보는 대신, 박스의 무게와 크기($ACF/PACF$ 그래프 모양)를 보고 "이건 5개들이 박스($p=5$)구나!"라고 알아맞히는 과정과 같습니다.
🍎 두 번째 주제: 정보 기준 (가성비 모형 찾기)
모형이 너무 복잡하면 과거 데이터는 잘 맞추지만 미래 예측은 엉터리가 됩니다(과적합). 그래서 '가성비'를 따집니다.
- AIC (Akaike Information Criterion): $\text{AIC} = -2\log(L) + 2k$
- BIC (Bayesian Information Criterion): $\text{BIC} = -2\log(L) + k\log(n)$
- 쉽게 말하면: 수식의 앞부분($-2\log(L)$)은 "얼마나 잘 맞나"를 보고, 뒷부분($2k$ 또는 $k\log(n)$)은 "얼마나 복잡한가(변수 개수)"에 대해 벌금을 매깁니다. 이 값이 작을수록 효율적인 모형입니다.
🍎 세 번째 주제: 모형의 진단 (잔차 분석)
모형을 만들고 남은 찌꺼기(잔차, Residuals)에 더 이상 써먹을 정보가 없는지 확인합니다.
- 백색잡음 검정: 잔차 $\hat{\epsilon}_t = y_t - \hat{y}_t$가 아무런 패턴이 없는 백색잡음이어야 합니다.
- 융-박스(Ljung-Box) 검정: 통계량 $Q = n(n+2) \sum_{k=1}^m \frac{\hat{\rho}_k^2}{n-k}$를 계산하여, 잔차들이 서로 독립인지 한꺼번에 검사합니다. 이 값의 $p-value$가 커야(보통 0.05보다 커야) "모형이 잘 만들어졌다"라고 합격점을 줍니다.
- 사과 비유: 착즙기로 사과 주스를 짜고 남은 찌꺼기에 아직도 주스 성분이 남아있다면(패턴이 있다면), 착즙기(모형)가 제 성능을 다 못 한 것입니다. 찌꺼기가 완전히 메말라야(백색잡음) 완벽한 착즙입니다.
🍎 네 번째 주제: 예측 오차 측정
실제 값과 예측 값이 얼마나 차이 나는지 점수를 매깁니다.
- MSE (Mean Squared Error): $MSE = \frac{1}{n} \sum (y_t - \hat{y}_t)^2$ (오차를 제곱해서 평균 냄)
- MAPE (Mean Absolute Percentage Error): $MAPE = \frac{100}{n} \sum |\frac{y_t - \hat{y}_t}{y_t}|$ (오차가 몇 퍼센트인지 직관적으로 보여줌)
💡 노션 팁
- 수식 입력: 노션에서 $$를 두 번 입력하면 큰 수식 블록이 생깁니다. 위의 수식들을 그대로 복사해 넣으세요.
- 이미지 삽입: 티스토리 글에 쓰려던 그래프 이미지를 노션에 드래그 앤 드롭하면 아주 깔끔하게 들어갑니다.
- 메타인지: "잔차에 패턴이 남아있다는 건 내가 놓친 정보가 있다는 뜻이다"라는 논리 구조만 기억해도 6강은 마스터하신 겁니다!
'Data Science > Statistics' 카테고리의 다른 글
| [예측방법론] 도구 (4강) 시계열의 자기상관 (0) | 2026.04.10 |
|---|---|
| [예측방법론] 기초 (1~3강) 예측의 개요, 예측데이터:시계열, 주파수분석과 확률과정 (0) | 2026.04.10 |
| [통계학개념] 심슨의 역설 (0) | 2024.03.15 |
| 회귀 모델 평가 지표, 결정 계수 R² (0) | 2023.06.25 |