시계열 예측 모델에서 커스텀 공휴일 사용

이 튜토리얼에서는 다음 작업을 처리하는 방법을 보여줍니다.

  • 기본 제공 공휴일만 사용하는 ARIMA_PLUS 시계열 예측 모델을 만듭니다.
  • 기본 공휴일 외에도 커스텀 공휴일을 사용하는 ARIMA_PLUS 시계열 예측 모델을 만듭니다.
  • 이러한 모델의 예측 결과를 시각화합니다.
  • 모델을 검사하여 모델링하는 공휴일을 확인합니다.
  • 커스텀 공휴일이 예측 결과에 미치는 영향을 평가합니다.
  • 기본 제공 공휴일만 사용하는 모델의 성능과 기본 제공 공휴일 외에도 커스텀 공휴일을 사용하는 모델의 성능을 비교합니다.

이 튜토리얼에서는 bigquery-public-data.wikipedia.pageviews_* 공개 테이블을 사용합니다.

필수 권한

  • 데이터 세트를 만들려면 bigquery.datasets.create IAM 권한이 필요합니다.
  • 연결 리소스를 만들려면 다음 권한이 필요합니다.

    • bigquery.connections.create
    • bigquery.connections.get
  • 모델을 만들려면 다음 권한이 필요합니다.

    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
    • bigquery.connections.delegate
  • 추론을 실행하려면 다음 권한이 필요합니다.

    • bigquery.models.getData
    • bigquery.jobs.create

BigQuery에서 IAM 역할 및 권한에 대한 자세한 내용은 IAM 소개를 참조하세요.

비용

이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • BigQuery: BigQuery에서 처리하는 데이터 비용이 발생합니다.

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

자세한 내용은 BigQuery 가격을 참조하세요.

시작하기 전에

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  4. BigQuery API 사용 설정

    API 사용 설정

  5. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  6. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  7. BigQuery API 사용 설정

    API 사용 설정

데이터 세트 생성

ML 모델을 저장할 BigQuery 데이터 세트를 만듭니다.

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

    BigQuery 페이지로 이동

  2. 탐색기 창에서 프로젝트 이름을 클릭합니다.

  3. 작업 보기 > 데이터 세트 만들기를 클릭합니다.

    데이터 세트 만들기

  4. 데이터 세트 만들기 페이지에서 다음을 수행합니다.

    • 데이터 세트 IDbqml_tutorial를 입력합니다.

    • 위치 유형에 대해 멀티 리전을 선택한 다음 US(미국 내 여러 리전)를 선택합니다.

      공개 데이터 세트는 US 멀티 리전에 저장됩니다. 편의상 같은 위치에 데이터 세트를 저장합니다.

    • 나머지 기본 설정은 그대로 두고 데이터 세트 만들기를 클릭합니다.

      데이터 세트 만들기 페이지

시계열 데이터 준비

Google I/O 페이지의 위키백과 페이지 보기 데이터를 날짜별로 그룹화된 단일 테이블로 집계합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    CREATE OR REPLACE TABLE `bqml_tutorial.googleio_page_views`
    AS
    SELECT
      DATETIME_TRUNC(datehour, DAY) AS date,
      SUM(views) AS views
    FROM
      `bigquery-public-data.wikipedia.pageviews_*`
    WHERE
      datehour >= '2017-01-01'
      AND datehour < '2023-01-01'
      AND title = 'Google_I/O'
    GROUP BY
      DATETIME_TRUNC(datehour, DAY)
    

기본 제공 공휴일을 사용하는 시계열 예측 모델 만들기

2022년 이전의 페이지 조회 데이터와 기본 제공 공휴일을 고려하여 Wikipedia 'Google I/O' 페이지의 일일 페이지 조회수를 예측하는 모델을 만듭니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    CREATE OR REPLACE MODEL `bqml_tutorial.forecast_googleio`
      OPTIONS (
        model_type = 'ARIMA_PLUS',
        holiday_region = 'US',
        time_series_timestamp_col = 'date',
        time_series_data_col = 'views',
        data_frequency = 'DAILY',
        horizon = 365)
    AS
    SELECT
      *
    FROM
      `bqml_tutorial.googleio_page_views`
    WHERE
      date < '2022-01-01';
    

예측 결과 시각화

기본 제공 공휴일을 사용하여 모델을 만든 후 bqml_tutorial.googleio_page_views 테이블의 원본 데이터를 ML.EXPLAIN_FORECAST 함수의 예측 값과 조인합니다. 그런 다음 Looker Studio를 사용하여 시각화합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT
      original.date,
      original.views AS original_views,
      explain_forecast.time_series_adjusted_data
        AS adjusted_views_without_custom_holiday,
    FROM
      `bqml_tutorial.googleio_page_views` original
    INNER JOIN
      (
        SELECT
          *
        FROM
          ML.EXPLAIN_FORECAST(
            MODEL `bqml_tutorial.forecast_googleio`,
            STRUCT(365 AS horizon))
      ) explain_forecast
      ON
        TIMESTAMP(original.date)
        = explain_forecast.time_series_timestamp
    ORDER BY
      original.date;
    
  3. 쿼리 결과 창에서 데이터 탐색을 클릭한 후 Looker Studio로 탐색을 클릭합니다. Looker Studio가 새 탭에서 열립니다.

  4. Looker Studio 탭에서 차트 추가를 클릭한 후 시계열 차트를 클릭합니다.

    시계열 차트 추가하기

    보고서에 차트를 배치합니다.

  5. 차트 창의 설정 탭에서 측정항목 추가를 클릭하고 reconcileed_views_less_custom_holiday를 선택합니다.

    측정항목 추가

    차트는 다음과 유사합니다.

    기본 제공 공휴일을 사용한 예측 결과의 시계열 차트

    예측 모델에서 일반적인 추세를 잘 캡처하고 있음을 알 수 있습니다. 하지만 이전 Google I/O 이벤트와 관련하여 증가한 트래픽을 캡처하지 못하고 있으며 정확한 예측을 생성할 수 없습니다.

    1. 다음 섹션에서는 이러한 일부 제한 사항을 해결하는 방법을 보여줍니다.

기본 공휴일 및 커스텀 공휴일을 사용하는 시계열 예측 모델 만들기

Google I/O 기록에서 볼 수 있듯이 2017년에서 2022년까지 Google I/O 이벤트가 발생했습니다. 이러한 변화를 고려하기 위해 2022년 이전의 페이지 조회 데이터를 기반으로 2022년까지 Wikipedia 'Google_I/O' 페이지의 페이지 조회수를 예측하고 커스텀 휴일을 사용하여 매년 열리는 Google I/O 이벤트 나타내는 모델을 만듭니다. 이 모델에서는 이벤트 전후로 가능한 페이지 트래픽을 더 효과적으로 캡처하도록 이벤트 날짜 주위의 3일을 포함하도록 휴일 효과 기간을 조정합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    CREATE OR REPLACE MODEL `bqml_tutorial.forecast_googleio_with_custom_holiday`
      OPTIONS (
        model_type = 'ARIMA_PLUS',
        holiday_region = 'US',
        time_series_timestamp_col = 'date',
        time_series_data_col = 'views',
        data_frequency = 'DAILY',
        horizon = 365)
    AS (
      training_data AS (
          SELECT
            *
          FROM
            `bqml_tutorial.googleio_page_views`
          WHERE
            date < '2022-01-01'
        ),
      custom_holiday AS (
          SELECT
            'US' AS region,
            'GoogleIO' AS holiday_name,
            primary_date,
            1 AS preholiday_days,
            2 AS postholiday_days
          FROM
            UNNEST(
              [
                DATE('2017-05-17'),
                DATE('2018-05-08'),
                DATE('2019-05-07'),
                -- cancelled in 2020 due to pandemic
                DATE('2021-05-18'),
                DATE('2022-05-11')])
              AS primary_date
        )
    );
    

예측 결과 시각화

커스텀 휴일을 사용하여 모델을 만든 후 bqml_tutorial.googleio_page_views 테이블의 원본 데이터를 ML.EXPLAIN_FORECAST 함수의 예측 값과 조인한 후 Looker Studio를 사용하여 시각화합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT
      original.date,
      original.views AS original_views,
      explain_forecast.time_series_adjusted_data
        AS adjusted_views_with_custom_holiday,
    FROM
      `bqml_tutorial.googleio_page_views` original
    INNER JOIN
      (
        SELECT
          *
        FROM
          ML.EXPLAIN_FORECAST(
            MODEL
              `bqml_tutorial.forecast_googleio_with_custom_holiday`,
            STRUCT(365 AS horizon))
      ) explain_forecast
      ON
        TIMESTAMP(original.date)
        = explain_forecast.time_series_timestamp
    ORDER BY
      original.date;
    
  3. 쿼리 결과 창에서 데이터 탐색을 클릭한 후 Looker Studio로 탐색을 클릭합니다. Looker Studio가 새 탭에서 열립니다.

  4. Looker Studio 탭에서 차트 추가를 클릭하고 시계열 차트를 클릭한 다음 차트를 보고서에 배치합니다.

  5. 차트 창의 설정 탭에서 측정항목 추가를 클릭하고 reconcileed_views_with_custom_holiday를 선택합니다.

    차트는 다음과 유사합니다.

    커스텀 공휴일을 사용한 예측 결과의 시계열 차트

    이와 같이 커스텀 공휴일은 예측 모델의 성능을 향상시켰습니다. 이제 Google I/O로 인해 발생한 페이지 조회수 증가를 효과적으로 캡처합니다.

공휴일 정보 검사

ML.HOLIDAY_INFO 함수를 사용하여 모델링 중에 고려된 공휴일 목록을 검사합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT *
    FROM
      ML.HOLIDAY_INFO(
        MODEL `bqml_tutorial.forecast_googleio_with_custom_holiday`);
    

    결과에는 Google 목록에서 I/O 및 기본 제공 공휴일이 모두 표시됩니다.

    ML.HOLIDAY_INFO 함수의 결과

커스텀 공휴일 효과 평가

ML.EXPLAIN_FORECAST 함수를 사용하여 예측 결과에 대한 커스텀 공휴일의 효과를 평가합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT
      time_series_timestamp,
      holiday_effect_GoogleIO,
      holiday_effect_US_Juneteenth,
      holiday_effect_Christmas,
      holiday_effect_NewYear
    FROM
      ML.EXPLAIN_FORECAST(
        model
          `bqml_tutorial.forecast_googleio_with_custom_holiday`,
        STRUCT(365 AS horizon))
    WHERE holiday_effect != 0;
    

    결과는 Google I/O가 예측 결과에 많은 양의 공휴일 영향을 미치는 것으로 표시됩니다.

    ML.EXPLAIN_FORECAST 함수의 결과

모델 성능 비교

ML.EVALUATE 함수를 사용하여 커스텀 공휴일 없이 만든 첫 번째 모델과 커스텀 공휴일로 만든 두 번째 모델의 성능을 비교합니다. 미래의 커스텀 공휴일을 예측하는 데 두 번째 모델의 성능을 확인하려면 기간을 2022년 Google I/O 주간으로 설정합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT
      "original" AS model_type,
      *
    FROM
      ml.evaluate(
        MODEL `bqml_tutorial.forecast_googleio`,
        (
          SELECT
            *
          FROM
            `bqml_tutorial.googleio_page_views`
          WHERE
            date >= '2022-05-08'
            AND date < '2022-05-12'
        ),
        STRUCT(
          365 AS horizon,
          TRUE AS perform_aggregation))
    UNION ALL
    SELECT
      "with_custom_holiday" AS model_type,
      *
    FROM
      ml.evaluate(
        MODEL
          `bqml_tutorial.forecast_googleio_with_custom_holiday`,
        (
          SELECT
            *
          FROM
            `bqml_tutorial.googleio_page_views`
          WHERE
            date >= '2022-05-08'
            AND date < '2022-05-12'
        ),
        STRUCT(
          365 AS horizon,
          TRUE AS perform_aggregation));
    

    두 번째 모델은 성능이 크게 향상되었음을 보여줍니다.

    ML.EXPLAIN_FORECAST 함수의 결과

삭제

  1. Google Cloud 콘솔에서 리소스 관리 페이지로 이동합니다.

    리소스 관리로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.