예측방법론 전체 요약 (Big Picture)
| 단계 | 주요 내용 | 핵심 키워드 |
| 기초 (1~3강) | 예측의 기초를 다지고 데이터를 다듬는 법 | 델파이 방법, 계절변동, 로그변환, 주파수 분석, 백색잡음 |
| 도구 (4강) | 데이터 간의 관계를 파악하는 지표 | 자기상관(ACF), 부분자기상관(PACF), 안정성 |
| 모형 (5~6강) | 본격적인 예측 수식 만들기 | AR(나), MA(충격), ARIMA(차분 포함), GARCH(변동성) |
| 검정 (7강) | 만든 모형이 정말 쓸만한지 확인하기 | 단위근 검정, 이분산성 검정, AIC/BIC(모형 선택 기준) |
4강: 시계열의 자기상관 학습 계획
- 자기상관(Autocorrelation)의 개념: 시계열 데이터가 자기 자신과 과거의 값에 얼마나 의존하는지 이해하기
- ACF와 PACF: 모형을 결정하는 두 가지 핵심 지표(자기상관함수와 부분자기상관함수) 구분하기
- 안정과 불안정 시계열: 데이터가 분석 가능한 상태인지 판단하는 기준 배우기
이 계획대로 진행해 볼까요? 아니면 특별히 더 궁금한 부분이 있어서 수정하고 싶으신가요?
진행하기 원하신다면, 바로 첫 번째 주제인 **'자기상관의 개념'**부터 시작할게요!
🍎 첫 번째 주제: 자기상관(Autocorrelation)이란?
'자기상관'이라는 말, 참 어렵죠? 쉽게 말해 **"오늘의 나(데이터)는 어제의 나와 얼마나 닮았나?"**를 측정하는 거예요.
- 비유: 매일 아침 몸무게를 잰다고 해볼게요. 어제 많이 먹어서 몸무게가 늘었다면, 오늘 몸무게도 어제와 비슷하게 무거울 확률이 높죠? 이렇게 시간의 흐름에 따라 데이터끼리 서로 영향을 주고받는 성질을 자기상관이라고 해요.
- 재미있는 사실: 만약 주식 시장에서 완벽한 자기상관이 있다면, 우리는 어제의 주가만 보고 오늘 부자가 될 수 있었을 거예요! 하지만 현실은 오차($\epsilon_t$)라는 불청객이 늘 따라다니죠.
수식의 의미:
강의록에 있는 \(\rho(h) = \frac{\gamma(h)}{\gamma(0)}\) 같은 수식은 복잡해 보이지만, 사실 **"시차(h)만큼 떨어진 데이터끼리의 상관관계가 전체 변동성\(\gamma(0)\) 중에서 얼마나 차지하는가?"**를 비율로 나타낸 것뿐이랍니다.
그럼 첫 번째 주제인 **'자기상관(Autocorrelation)'**에 대해 조금 더 깊게 들어가 볼게요.
어려운 수식을 보기 전에, 우리가 왜 이걸 배우는지 목적을 알면 훨씬 쉬워져요. 예측의 핵심은 **"과거의 데이터에 미래를 예측할 수 있는 정보가 들어있는가?"**를 찾아내는 것인데, 그 정보가 바로 '자기상관'입니다.
1-1. 자기공분산(Autocovariance)
상관관계를 알기 전에 먼저 '공분산'을 알아야 해요.
- 개념: $s$ 시점의 값($Y_s$)과 $t$ 시점의 값($Y_t$)이 함께 움직이는 정도를 말합니다.
- 수식: $\gamma(s,t) = Cov(Y_s, Y_t)$
- 쉽게 말하면: $s$ 시점에 값이 커질 때 $t$ 시점에도 같이 커지는 경향이 있다면 공분산은 양(+)의 값을 가집니다.
1-2. 자기상관계수(ACF, Autocorrelation Function)
공분산은 데이터의 단위(예: 원, 달러, kg)에 따라 숫자가 너무 커지거나 작아질 수 있어요. 그래서 이걸 -1에서 1 사이의 값으로 표준화한 것이 '자기상관계수'입니다.
수식: \(\rho(h) = \frac{\gamma(h)}{\gamma(0)}\) \(\rho(h) = \frac{\gamma(h)}{\gamma(0)}\)
- 여기서 \(h\) 는 **시차(Lag)**예요. 즉, '오늘과 1일 전', '오늘과 2일 전' 처럼 떨어진 정도를 뜻하죠.
- $\gamma(0)$ $\gamma(0)$ $\gamma(0)$ \(\gamma(0)\) 은 시차가 0일 때, 즉 자기 자신의 분산을 의미합니다.
- 해석:
- $\rho(h)$가 1에 가까우면: 과거와 아주 비슷한 흐름을 보임 (양의 상관관계)
- $\rho(h)$가 -1에 가까우면: 과거와 반대로 움직임 (음의 상관관계)
- $\rho(h)$가 0에 가까우면: 과거와 아무 상관이 없음 (예측하기 어려움!)
💡 잠깐 퀴즈! (학습 활동)
어떤 아이스크림 가게의 일일 판매량 데이터를 분석했더니, **시차 1($h=1$, 바로 전날)**에서의 자기상관계수가 0.9가 나왔고, **시차 7($h=7$, 일주일 전)**에서의 자기상관계수도 0.85로 높게 나왔어요.
이 결과는 이 가게의 판매량에 대해 무엇을 말해주고 있을까요? (가장 적절한 것을 골라보세요!)
- 어제 많이 팔렸으면 오늘도 많이 팔릴 가능성이 높고, 매주 특정 요일마다 비슷하게 팔리는 패턴(요일 효과)이 있다.
- 어제 판매량과 오늘 판매량은 아무런 상관이 없으며, 매일매일이 완전히 랜덤이다.
- 시차가 커질수록 상관관계가 무조건 0으로 수렴하므로 데이터가 잘못되었다.
맞습니다! 정답은 1번입니다.
이 퀴즈를 통해 우리는 **자기상관함수(ACF)**가 현실에서 어떤 정보를 주는지 알 수 있습니다.
- 시차 1에서의 높은 상관관계(0.9): "어제의 판매량이 오늘과 매우 비슷하다"는 뜻으로, 데이터에 강력한 관성(흐름)이 있음을 보여줍니다.
- 시차 7에서의 높은 상관관계(0.85): "일주일 전의 판매량이 오늘과 매우 비슷하다"는 뜻으로, 매주 같은 요일에 반복되는 계절성(Seasonality) 혹은 요일 효과가 있음을 시사합니다.
🍎 두 번째 주제: ACF와 PACF (모형 결정의 나침반)
이제 4강의 가장 어려운 고비이자 핵심인 **ACF(자기상관함수)**와 **PACF(부분자기상관함수)**를 구분해 볼게요. 수식은 복잡하지만, 원리는 '중간 차단' 여부에 있습니다.
1. ACF (Autocorrelation Function)
- 의미: $Y_t$와 $Y_{t-h}$ 사이의 직접적인 관계 + 중간($Y_{t-1}, \dots$)을 거쳐서 오는 간접적인 관계를 모두 더한 값입니다.
- 비유: 할아버지($Y_{t-2}$)와 나($Y_t$)의 닮은 정도를 볼 때, 아빠($Y_{t-1}$)를 닮아서 생긴 닮음까지 통째로 측정하는 것입니다.
2. PACF (Partial Autocorrelation Function)
- 의미: 중간에 있는 값들의 영향을 제거하고, 오직 $Y_t$와 $Y_{t-h}$ 사이의 순수한 직접적 관계만 측정합니다.
- 비유: 아빠와 닮은 점은 쏙 빼고, 할아버지한테서만 직접 물려받은 '순수한 유전적 특징'만 골라내는 것과 같습니다.
💡 왜 이 둘을 같이 보나요?
나중에 배울 시계열 모형(AR, MA)을 고를 때 이 두 그래프의 모양을 보고 결정하기 때문이에요.
- AR(자기회귀) 모형: PACF가 특정 시점 이후에 뚝 끊깁니다. (절단)
- MA(이동평균) 모형: ACF가 특정 시점 이후에 뚝 끊깁니다. (절단)
💡 이해도 체크 퀴즈!
만약 어떤 시계열 데이터를 분석했는데, ACF는 서서히 줄어드는데(감쇄), PACF는 시차 1에서만 값이 높고 시차 2부터는 0에 가깝게 뚝 끊겼다면, 이 데이터는 어떤 모형으로 설명하는 것이 가장 좋을까요?
- 과거의 나 자신에게 직접 영향을 받는 AR(자기회귀) 모형
- 과거의 오차(충격)에 영향을 받는 MA(이동평균) 모형
힌트: PACF가 '뚝 끊겼다(절단)'는 것이 포인트입니다!
정답은 1번. PACF가 특정 시차 이후에 **'절단(Cut-off)'**되는 모습은 AR(자기회귀) 모형의 아주 뚜렷한 특징이에요. 할아버지의 영향이 아빠를 통해서만 전달될 뿐, 직접적인 영향은 시차 2부터 사라진다는 뜻이죠.
🍎 세 번째 주제: 안정 시계열과 불안정 시계열
오늘 배운 상관관계 분석을 제대로 하려면, 데이터가 **'안정적(Stationary)'**이어야 해요. 이건 분석을 위한 최소한의 자격 요건 같은 거예요.
- 안정 시계열 (Stationary)
- 특징: 평균과 분산이 일정하고, 자기상관이 오직 '시차'에만 의존합니다.
- 비유: 일정한 규칙 안에서 튀어 오르는 농구공 같습니다. 어디로 튈지 어느 정도 예측이 가능하죠.
- 불안정 시계열 (Non-stationary)
- 특징: 시간이 갈수록 평균이 우상향하거나(추세), 변동의 폭이 커집니다.
- 비유: 로켓처럼 계속 날아가 버리거나, 갈수록 폭이 커지는 파도 같습니다. 이런 데이터는 상관관계를 분석해도 신뢰하기가 어렵습니다.
메타인지 전략 추천: 시계열 공부를 할 때 "이 데이터는 안정적인가?"를 먼저 묻는 습관을 들여보세요. 안정적이지 않다면(불안정하다면), 앞서 6강에서 잠깐 언급했던 **차분(Difference)**을 통해 억지로(?) 안정적으로 만든 뒤 분석해야 한다는 논리적 흐름이 잡힐 거예요.
🎓 4강 요약 및 마무리 퀴즈
지금까지 자기상관, ACF/PACF, 그리고 안정성에 대해 배웠습니다. 오늘 학습을 마무리하는 의미로 짧은 퀴즈 하나 더 풀어볼까요?
"현실의 주가 데이터처럼 시간이 흐를수록 평균이 계속 변하는 시계열은 (____) 시계열이라고 부르며, 이를 분석하기 위해서는 데이터를 안정적으로 만드는 과정이 필요하다."
빈칸에 들어갈 말은 무엇일까요?
- 안정
- 불안정
정답은 2번, 불안정 시계열입니다.
주가처럼 시간이 지날수록 평균이 위로 올라가거나 변동폭이 커지는 데이터는 갈피를 잡을 수 없기 때문에 '불안정'하다고 해요. 그래서 4강의 결론은 **"우리가 배운 상관관계 분석 도구들을 제대로 써먹으려면, 먼저 데이터가 안정적인지 확인해야 한다"**가 됩니다.
🎓 예측방법론 4강 핵심 요약
지금까지 공부한 내용을 한 문장씩으로 정리해 볼게요.
- 자기상관: 오늘의 값은 어제의 값과 얼마나 닮았나? (상관관계 분석)
- ACF: 직접적인 영향 + 간접적인 영향을 몽땅 합쳐서 본 것.
- PACF: 중간에 낀 애들은 빼고, 오로지 '직접적인' 영향력만 발라낸 것.
- 모형 결정: PACF가 뚝 끊기면 AR, ACF가 뚝 끊기면 MA 모형을 쓴다.
- 안정성: 이 모든 분석은 데이터의 평균과 분산이 일정한 **'안정 시계열'**일 때만 의미가 있다.
🌟 다음 공부를 위한 팁 (5강 예고)
이제 4강에서 **"데이터가 안정적인지 확인하고, ACF/PACF로 모형을 고르는 법"**을 배웠으니, 5강에서는 본격적으로 AR 모형과 MA 모형의 수식이 등장합니다.
4강의 PACF/ACF 절단 개념만 머릿속에 잘 넣어두시면 5강도 충분히 이해하실 수 있을 거예요!
'Data Science > Statistics' 카테고리의 다른 글
| [예측방법론] 모형 (5~6강) 시계열모형 (0) | 2026.04.10 |
|---|---|
| [예측방법론] 기초 (1~3강) 예측의 개요, 예측데이터:시계열, 주파수분석과 확률과정 (0) | 2026.04.10 |
| [통계학개념] 심슨의 역설 (0) | 2024.03.15 |
| 회귀 모델 평가 지표, 결정 계수 R² (0) | 2023.06.25 |