본문 바로가기
Data Science/Statistics

[예측방법론] 도구 (4강) 시계열의 자기상관

by 에르모사 쩐뉴 2026. 4. 10.

 예측방법론 전체 요약 (Big Picture)

단계 주요 내용 핵심 키워드
기초 (1~3강) 예측의 기초를 다지고 데이터를 다듬는 법 델파이 방법, 계절변동, 로그변환, 주파수 분석, 백색잡음
도구 (4강) 데이터 간의 관계를 파악하는 지표 자기상관(ACF), 부분자기상관(PACF), 안정성
모형 (5~6강) 본격적인 예측 수식 만들기 AR(나), MA(충격), ARIMA(차분 포함), GARCH(변동성)
검정 (7강) 만든 모형이 정말 쓸만한지 확인하기 단위근 검정, 이분산성 검정, AIC/BIC(모형 선택 기준)

 

 4강: 시계열의 자기상관 학습 계획

  1. 자기상관(Autocorrelation)의 개념: 시계열 데이터가 자기 자신과 과거의 값에 얼마나 의존하는지 이해하기
  2. ACF와 PACF: 모형을 결정하는 두 가지 핵심 지표(자기상관함수와 부분자기상관함수) 구분하기
  3. 안정과 불안정 시계열: 데이터가 분석 가능한 상태인지 판단하는 기준 배우기

이 계획대로 진행해 볼까요? 아니면 특별히 더 궁금한 부분이 있어서 수정하고 싶으신가요?

진행하기 원하신다면, 바로 첫 번째 주제인 **'자기상관의 개념'**부터 시작할게요!


🍎 첫 번째 주제: 자기상관(Autocorrelation)이란?

'자기상관'이라는 말, 참 어렵죠? 쉽게 말해 **"오늘의 나(데이터)는 어제의 나와 얼마나 닮았나?"**를 측정하는 거예요.

  • 비유: 매일 아침 몸무게를 잰다고 해볼게요. 어제 많이 먹어서 몸무게가 늘었다면, 오늘 몸무게도 어제와 비슷하게 무거울 확률이 높죠? 이렇게 시간의 흐름에 따라 데이터끼리 서로 영향을 주고받는 성질을 자기상관이라고 해요.
  • 재미있는 사실: 만약 주식 시장에서 완벽한 자기상관이 있다면, 우리는 어제의 주가만 보고 오늘 부자가 될 수 있었을 거예요! 하지만 현실은 오차($\epsilon_t$)라는 불청객이 늘 따라다니죠.

수식의 의미:

강의록에 있는   \(\rho(h) = \frac{\gamma(h)}{\gamma(0)}\)  같은 수식은 복잡해 보이지만, 사실 **"시차(h)만큼 떨어진 데이터끼리의 상관관계가 전체 변동성\(\gamma(0)\) 중에서 얼마나 차지하는가?"**를 비율로 나타낸 것뿐이랍니다.

 

 

그럼 첫 번째 주제인 **'자기상관(Autocorrelation)'**에 대해 조금 더 깊게 들어가 볼게요.

어려운 수식을 보기 전에, 우리가 왜 이걸 배우는지 목적을 알면 훨씬 쉬워져요. 예측의 핵심은 **"과거의 데이터에 미래를 예측할 수 있는 정보가 들어있는가?"**를 찾아내는 것인데, 그 정보가 바로 '자기상관'입니다.


1-1. 자기공분산(Autocovariance)

상관관계를 알기 전에 먼저 '공분산'을 알아야 해요.

  • 개념: $s$ 시점의 값($Y_s$)과 $t$ 시점의 값($Y_t$)이 함께 움직이는 정도를 말합니다.
  • 수식: $\gamma(s,t) = Cov(Y_s, Y_t)$
  • 쉽게 말하면: $s$ 시점에 값이 커질 때 $t$ 시점에도 같이 커지는 경향이 있다면 공분산은 양(+)의 값을 가집니다.

1-2. 자기상관계수(ACF, Autocorrelation Function)

공분산은 데이터의 단위(예: 원, 달러, kg)에 따라 숫자가 너무 커지거나 작아질 수 있어요. 그래서 이걸 -1에서 1 사이의 값으로 표준화한 것이 '자기상관계수'입니다.

 

수식:  \(\rho(h) = \frac{\gamma(h)}{\gamma(0)}\)    \(\rho(h) = \frac{\gamma(h)}{\gamma(0)}\) 

  • 여기서 \(h\) 는 **시차(Lag)**예요. 즉, '오늘과 1일 전', '오늘과 2일 전' 처럼 떨어진 정도를 뜻하죠.
  • $\gamma(0)$  $\gamma(0)$  $\gamma(0)$ \(\gamma(0)\) 은 시차가 0일 때, 즉 자기 자신의 분산을 의미합니다.
  • 해석:
    • $\rho(h)$가 1에 가까우면: 과거와 아주 비슷한 흐름을 보임 (양의 상관관계)
    • $\rho(h)$가 -1에 가까우면: 과거와 반대로 움직임 (음의 상관관계)
    • $\rho(h)$가 0에 가까우면: 과거와 아무 상관이 없음 (예측하기 어려움!)

💡 잠깐 퀴즈! (학습 활동)

어떤 아이스크림 가게의 일일 판매량 데이터를 분석했더니, **시차 1($h=1$, 바로 전날)**에서의 자기상관계수가 0.9가 나왔고, **시차 7($h=7$, 일주일 전)**에서의 자기상관계수도 0.85로 높게 나왔어요.

이 결과는 이 가게의 판매량에 대해 무엇을 말해주고 있을까요? (가장 적절한 것을 골라보세요!)

  1. 어제 많이 팔렸으면 오늘도 많이 팔릴 가능성이 높고, 매주 특정 요일마다 비슷하게 팔리는 패턴(요일 효과)이 있다.
  2. 어제 판매량과 오늘 판매량은 아무런 상관이 없으며, 매일매일이 완전히 랜덤이다.
  3. 시차가 커질수록 상관관계가 무조건 0으로 수렴하므로 데이터가 잘못되었다.

 

맞습니다! 정답은 1번입니다.

이 퀴즈를 통해 우리는 **자기상관함수(ACF)**가 현실에서 어떤 정보를 주는지 알 수 있습니다.

 

 

  • 시차 1에서의 높은 상관관계(0.9): "어제의 판매량이 오늘과 매우 비슷하다"는 뜻으로, 데이터에 강력한 관성(흐름)이 있음을 보여줍니다.
  • 시차 7에서의 높은 상관관계(0.85): "일주일 전의 판매량이 오늘과 매우 비슷하다"는 뜻으로, 매주 같은 요일에 반복되는 계절성(Seasonality) 혹은 요일 효과가 있음을 시사합니다.

🍎 두 번째 주제: ACF와 PACF (모형 결정의 나침반)

이제 4강의 가장 어려운 고비이자 핵심인 **ACF(자기상관함수)**와 **PACF(부분자기상관함수)**를 구분해 볼게요. 수식은 복잡하지만, 원리는 '중간 차단' 여부에 있습니다.

1. ACF (Autocorrelation Function)

  • 의미: $Y_t$$Y_{t-h}$ 사이의 직접적인 관계 + 중간($Y_{t-1}, \dots$)을 거쳐서 오는 간접적인 관계를 모두 더한 값입니다.
  • 비유: 할아버지($Y_{t-2}$)와 나($Y_t$)의 닮은 정도를 볼 때, 아빠($Y_{t-1}$)를 닮아서 생긴 닮음까지 통째로 측정하는 것입니다.

2. PACF (Partial Autocorrelation Function)

  • 의미: 중간에 있는 값들의 영향을 제거하고, 오직 $Y_t$$Y_{t-h}$ 사이의 순수한 직접적 관계만 측정합니다.
  • 비유: 아빠와 닮은 점은 쏙 빼고, 할아버지한테서만 직접 물려받은 '순수한 유전적 특징'만 골라내는 것과 같습니다.

💡 왜 이 둘을 같이 보나요?

나중에 배울 시계열 모형(AR, MA)을 고를 때 이 두 그래프의 모양을 보고 결정하기 때문이에요.

  • AR(자기회귀) 모형: PACF가 특정 시점 이후에 뚝 끊깁니다. (절단)
  • MA(이동평균) 모형: ACF가 특정 시점 이후에 뚝 끊깁니다. (절단)

💡 이해도 체크 퀴즈!

만약 어떤 시계열 데이터를 분석했는데, ACF는 서서히 줄어드는데(감쇄), PACF는 시차 1에서만 값이 높고 시차 2부터는 0에 가깝게 뚝 끊겼다면, 이 데이터는 어떤 모형으로 설명하는 것이 가장 좋을까요?

  1. 과거의 나 자신에게 직접 영향을 받는 AR(자기회귀) 모형
  2. 과거의 오차(충격)에 영향을 받는 MA(이동평균) 모형

힌트: PACF가 '뚝 끊겼다(절단)'는 것이 포인트입니다!

 

 

정답은 1번. PACF가 특정 시차 이후에 **'절단(Cut-off)'**되는 모습은 AR(자기회귀) 모형의 아주 뚜렷한 특징이에요. 할아버지의 영향이 아빠를 통해서만 전달될 뿐, 직접적인 영향은 시차 2부터 사라진다는 뜻이죠.


🍎 세 번째 주제: 안정 시계열과 불안정 시계열

오늘 배운 상관관계 분석을 제대로 하려면, 데이터가 **'안정적(Stationary)'**이어야 해요. 이건 분석을 위한 최소한의 자격 요건 같은 거예요.

  1. 안정 시계열 (Stationary)
    • 특징: 평균과 분산이 일정하고, 자기상관이 오직 '시차'에만 의존합니다.
    • 비유: 일정한 규칙 안에서 튀어 오르는 농구공 같습니다. 어디로 튈지 어느 정도 예측이 가능하죠.
  2. 불안정 시계열 (Non-stationary)
    • 특징: 시간이 갈수록 평균이 우상향하거나(추세), 변동의 폭이 커집니다.
    • 비유: 로켓처럼 계속 날아가 버리거나, 갈수록 폭이 커지는 파도 같습니다. 이런 데이터는 상관관계를 분석해도 신뢰하기가 어렵습니다.

메타인지 전략 추천: 시계열 공부를 할 때 "이 데이터는 안정적인가?"를 먼저 묻는 습관을 들여보세요. 안정적이지 않다면(불안정하다면), 앞서 6강에서 잠깐 언급했던 **차분(Difference)**을 통해 억지로(?) 안정적으로 만든 뒤 분석해야 한다는 논리적 흐름이 잡힐 거예요.


🎓 4강 요약 및 마무리 퀴즈

지금까지 자기상관, ACF/PACF, 그리고 안정성에 대해 배웠습니다. 오늘 학습을 마무리하는 의미로 짧은 퀴즈 하나 더 풀어볼까요?

"현실의 주가 데이터처럼 시간이 흐를수록 평균이 계속 변하는 시계열은 (____) 시계열이라고 부르며, 이를 분석하기 위해서는 데이터를 안정적으로 만드는 과정이 필요하다."

빈칸에 들어갈 말은 무엇일까요?

  1. 안정
  2. 불안정

정답은 2번, 불안정 시계열입니다.

주가처럼 시간이 지날수록 평균이 위로 올라가거나 변동폭이 커지는 데이터는 갈피를 잡을 수 없기 때문에 '불안정'하다고 해요. 그래서 4강의 결론은 **"우리가 배운 상관관계 분석 도구들을 제대로 써먹으려면, 먼저 데이터가 안정적인지 확인해야 한다"**가 됩니다.


🎓 예측방법론 4강 핵심 요약

지금까지 공부한 내용을 한 문장씩으로 정리해 볼게요.

  1. 자기상관: 오늘의 값은 어제의 값과 얼마나 닮았나? (상관관계 분석)
  2. ACF: 직접적인 영향 + 간접적인 영향을 몽땅 합쳐서 본 것.
  3. PACF: 중간에 낀 애들은 빼고, 오로지 '직접적인' 영향력만 발라낸 것.
  4. 모형 결정: PACF가 뚝 끊기면 AR, ACF가 뚝 끊기면 MA 모형을 쓴다.
  5. 안정성: 이 모든 분석은 데이터의 평균과 분산이 일정한 **'안정 시계열'**일 때만 의미가 있다.

🌟 다음 공부를 위한 팁 (5강 예고)

이제 4강에서 **"데이터가 안정적인지 확인하고, ACF/PACF로 모형을 고르는 법"**을 배웠으니, 5강에서는 본격적으로 AR 모형과 MA 모형의 수식이 등장합니다.

4강의 PACF/ACF 절단 개념만 머릿속에 잘 넣어두시면 5강도 충분히 이해하실 수 있을 거예요!