게으른 데이터 과학자의 시계열 예측 안내서

게으른 데이터 과학자의 시계열 예측 안내서

게으른 데이터 과학자의 시계열 예측 안내서게으른 데이터 과학자의 시계열 예측 안내서
편집자에 의한 이미지 | chatgpt

소개

시계열 예측은 사업의 모든 곳에 있습니다. 다음 분기 판매를 예측하거나 재고 수요를 추정하거나 재무 예산 계획을 세우 든 정확한 예측은 전략적 결정을 내리거나 중단 할 수 있습니다.

그러나 Arima Tuning의 고통을 겪는 것과 같은 클래식 시계열 접근 방식은 복잡하고 시간이 많이 걸립니다.

이것은 많은 데이터 과학자, 분석가 및 BI 전문가에게 딜레마를 제시합니다 : 정밀 대 실용성.

그곳에서 게으른 데이터 과학자의 사고 방식이 나오는 곳입니다. 현대의 Python 예측 라이브러리와 Automl이 1 분 안에 적절한 솔루션을 제공 할 수있을 때 몇 주 동안 미세 조정 모델을 소비합니까?

이 안내서에서는 죄책감없이 빠르고 합리적인 정확도를 제공하는 자동화 된 예측 접근법을 채택하는 방법을 배웁니다.

시계열 예측이란 무엇입니까?

시계열 예측은 일련의 과거 데이터에서 파생 된 미래 값을 예측하는 과정을 말합니다. 일반적인 응용 프로그램에는 판매, 에너지 수요, 금융 및 날씨가 포함됩니다.

4 가지 주요 개념은 시계열을 구동합니다.

  • 추세 : 장기 경향은 장기간에 걸쳐 증가 또는 감소에 의해 나타납니다.
  • 계절성 : 1 년 이내에 정기적으로 반복되는 패턴 (매일, 매주, 매월). 달력과 관련이 있습니다.
  • 주기적 : 1 년 이상 지속되는 움직임이나 진동은 종종 거시 경제 조건에 의해 주도됩니다.
  • 불규칙 또는 소음 : 우리는 설명 할 수없는 무작위 변동.

시계열을 더 이해하려면 이것을 참조하십시오 팬더와 시계열 가이드.

게으른 데이터 과학자의 시계열 예측 안내서게으른 데이터 과학자의 시계열 예측 안내서
저자의 이미지

예측에 대한 게으른 접근

“게으른”접근 방식은 간단합니다. 바퀴를 재창조하지 마십시오. 대신 자동화 및 사전 구축 된 모델을 사용하여 시간을 절약하십시오.

이 접근법은 완벽한 미세 조정보다 속도와 실용성을 우선시합니다. Google지도를 사용하는 것처럼 고려하십시오. 시스템이 모든 도로 및 교통 조건을 계산하는 방법에 대해 걱정하지 않고 목적지에 도착합니다.

게으른 예측을위한 필수 도구

이제 우리는 게으른 접근 방식의 모습을 확립 했으므로 실천하겠습니다. 처음부터 모델을 개발하는 대신 잘 테스트 한 파이썬 라이브러리와 대부분의 작업을 수행 할 수있는 Automl 프레임 워크를 활용할 수 있습니다.

일부 라이브러리 예언자 그리고 Auto Arima튜닝이 거의없는 플러그 앤 플레이 예측에 적합하지만 다른 사람들은 속죄 염소 그리고 다트전형적인 통계에서 딥 러닝에 이르기까지 모든 것을 할 수있는 다양한 다양성을 생태계에 제공하십시오.

그들을 분해합시다 :

// 페이스 북

선지자는 Facebook (Meta)에서 만든 플러그 앤 플레이 라이브러리로, 특히 비즈니스 데이터의 트렌드와 계절성을 캡처하는 데 능숙합니다. 몇 줄의 코드 만 있으면 불확실성 간격이 포함 된 예측을 생성 할 수 있으며 무거운 매개 변수 튜닝이 필요하지 않습니다.

다음은 샘플 코드 스 니펫입니다.

from prophet import Prophet
import pandas as pd

# Load data (columns: ds = date, y = value)
df = pd.read_csv("sales.csv", parse_dates=["ds"])

# Fit a simple Prophet model
model = Prophet()
model.fit(df)

# Make future predictions
future = model.make_future_dataframe(periods=30)
forecast = model.predict(future)

# Plot forecast
model.plot(forecast)

// Auto Arima (PMDARIMA)

Arima 모델은 시계열 예측을위한 전통적인 접근법입니다. 그러나 매개 변수를 조정합니다 (p,,, d,,, q) 시간이 걸립니다. PMDarima 라이브러리의 Auto Arima는이 선택을 자동화하므로 추측없이 신뢰할 수있는 기준 예측을 얻을 수 있습니다.

시작할 코드는 다음과 같습니다.

import pmdarima as pm
import pandas as pd

# Load time series (single column with values)
df = pd.read_csv("sales.csv")
y = df["y"]

# Fit Auto ARIMA (monthly seasonality example)
model = pm.auto_arima(y, seasonal=True, m=12)

# Forecast next 30 steps
forecast = model.predict(n_periods=30)
print(forecast)

// Sktime과 Darts

고전적인 방법을 넘어서고 싶다면 Sktime 및 Darts와 같은 라이브러리는 단순한 ARIMA에서 고급 딥 러닝 예측 자에 이르기까지 수십 가지 모델을 테스트 할 수있는 놀이터를 제공합니다.

그들은 처음부터 모든 것을 코딩 할 필요없이 시계열에 대한 머신 러닝을 실험하는 데 좋습니다.

다음은 시작할 간단한 코드 예입니다.

from darts.datasets import AirPassengersDataset
from darts.models import ExponentialSmoothing

# Load example dataset
series = AirPassengersDataset().load()

# Fit a simple model
model = ExponentialSmoothing()
model.fit(series)

# Forecast 12 future values
forecast = model.predict(12)
series.plot(label="actual")
forecast.plot(label="forecast")

// Automl 플랫폼 (H2O, AutoGluon, Azure Automl)

엔터프라이즈 환경에서는 코딩없이 예측을 원하거나 가능한 한 많은 자동화를 원하는 순간이 있습니다.

automl 플랫폼과 같은 H2O Automl,,, autogluon또는 Azure Automl 원시 시계열 데이터를 수집하고 여러 모델을 테스트하며 가장 성능이 좋은 모델을 제공 할 수 있습니다.

다음은 AutoGluon을 사용하는 빠른 예입니다.

from autogluon.timeseries import TimeSeriesPredictor
import pandas as pd

# Load dataset (must include columns: item_id, timestamp, target)
train_data = pd.read_csv("sales_multiseries.csv")

# Fit AutoGluon Time Series Predictor
predictor = TimeSeriesPredictor(
    prediction_length=12, 
    path="autogluon_forecasts"
).fit(train_data)

# Generate forecasts for the same series
forecasts = predictor.predict(train_data)
print(forecasts)

“게으른”만으로는 충분하지 않을 때

자동화 된 예측은 대부분 매우 잘 작동합니다. 그러나 항상 명심해야합니다.

  • 도메인 복잡성 : 프로모션, 휴일 또는 가격 변경이 있으면 사용자 정의 기능이 필요할 수 있습니다.
  • 특이한 상황 : 전염병, 공급망 충격 및 기타 희귀 한 사건.
  • 미션 크리티컬 정확도 : 높은 지분 시나리오 (금융, 의료 등)의 경우, 당신은 까다로운 것을 원할 것입니다.

“게으른”은 부주의를 의미하지 않습니다. 비즈니스 결정에 사용하기 전에 항상 예측을 확인하십시오.

게으른 예측을위한 모범 사례

게으른 길을 벗어나더라도 다음과 같은 팁을 따르십시오.

  1. 항상 예측 및 신뢰 구간을 시각화합니다.
  2. 간단한 기준선 (마지막 값, 이동 평균)과 비교하십시오.
  3. 파이프 라인으로 재교육을 자동화합니다 (공기 흐름, 현).
  4. 재현성을 보장하기 위해 모델과 보고서를 저장하십시오.

마무리

시계열 예측은 무섭거나 철저 할 필요가 없습니다.

예언자 또는 자동 ARIMA와 같은 파이썬 예측 라이브러리와 AutomL 프레임 워크를 통해 몇 분 안에 정확하고 해석 가능한 예측을 얻을 수 있습니다.

따라서 기억하십시오 :“게으른”데이터 과학자가 당신이 부주의하다는 것을 의미하지는 않습니다. 그것은 당신이 효율적이라는 것을 의미합니다.

Josep Ferrer 바르셀로나의 분석 엔지니어입니다. 그는 물리 공학을 졸업했으며 현재 인간 이동성에 적용되는 데이터 과학 분야에서 일하고 있습니다. 그는 데이터 과학 및 기술에 중점을 둔 파트 타임 콘텐츠 제작자입니다. Josep은 AI의 모든 것에 글을 썼으며 현장에서 진행중인 폭발의 적용을 다루고 있습니다.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다