시계열 예측 모델에서 커스텀 공휴일 사용

이 튜토리얼에서는 다음 작업을 처리하는 방법을 보여줍니다.

  • 기본 제공 공휴일만 사용하는 ARIMA_PLUS 시계열 예측 모델 만들기
  • 기본 공휴일 외에도 커스텀 공휴일을 사용하는 ARIMA_PLUS 시계열 예측 모델 만들기
  • 이러한 모델의 예측 결과를 시각화하기
  • 모델을 검사하여 모델링되는 휴일을 확인하기
  • 커스텀 공휴일이 예측 결과에 미치는 영향을 평가하기
  • 기본 제공 공휴일만 사용하는 모델의 성능과 기본 제공 공휴일 외에도 커스텀 공휴일을 사용하는 모델의 성능을 비교하기

이 튜토리얼에서는 bigquery-public-data.wikipedia.pageviews_* 공개 테이블을 사용합니다.

필수 권한

  • 데이터 세트를 만들려면 bigquery.datasets.create IAM 권한이 필요합니다.
  • 연결 리소스를 만들려면 다음 권한이 필요합니다.

    • bigquery.connections.create
    • bigquery.connections.get
  • 모델을 만들려면 다음 권한이 필요합니다.

    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
    • bigquery.connections.delegate
  • 추론을 실행하려면 다음 권한이 필요합니다.

    • bigquery.models.getData
    • bigquery.jobs.create

BigQuery에서 IAM 역할 및 권한에 대한 자세한 내용은 IAM 소개를 참조하세요.

비용

이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • BigQuery: You incur costs for the data you process in BigQuery.

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

자세한 내용은 BigQuery 가격을 참조하세요.

시작하기 전에

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  4. Enable the BigQuery API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  7. Enable the BigQuery API.

    Enable the API

데이터 세트 생성

ML 모델을 저장할 BigQuery 데이터 세트를 만듭니다.

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

    BigQuery 페이지로 이동

  2. 탐색기 창에서 프로젝트 이름을 클릭합니다.

  3. 작업 보기 > 데이터 세트 만들기를 클릭합니다.

    데이터 세트 만들기

  4. 데이터 세트 만들기 페이지에서 다음을 수행합니다.

    • 데이터 세트 IDbqml_tutorial를 입력합니다.

    • 위치 유형에 대해 멀티 리전을 선택한 다음 US(미국 내 여러 리전)를 선택합니다.

      공개 데이터 세트는 US 멀티 리전에 저장됩니다. 편의상 같은 위치에 데이터 세트를 저장합니다.

    • 나머지 기본 설정은 그대로 두고 데이터 세트 만들기를 클릭합니다.

      데이터 세트 만들기 페이지

시계열 데이터 준비

Google I/O 페이지의 위키백과 페이지 조회 데이터를 일별로 그룹화한 단일 테이블로 집계합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    CREATE OR REPLACE TABLE `bqml_tutorial.googleio_page_views`
    AS
    SELECT
      DATETIME_TRUNC(datehour, DAY) AS date,
      SUM(views) AS views
    FROM
      `bigquery-public-data.wikipedia.pageviews_*`
    WHERE
      datehour >= '2017-01-01'
      AND datehour < '2023-01-01'
      AND title = 'Google_I/O'
    GROUP BY
      DATETIME_TRUNC(datehour, DAY)
    

기본 공휴일을 사용하는 시계열 예측 모델 만들기

2022년 이전의 페이지 조회 데이터를 기반으로 Wikipedia 'Google I/O' 페이지의 일일 페이지 조회수를 예측하고 기본 제공되는 공휴일을 고려하는 모델을 만듭니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    CREATE OR REPLACE MODEL `bqml_tutorial.forecast_googleio`
      OPTIONS (
        model_type = 'ARIMA_PLUS',
        holiday_region = 'US',
        time_series_timestamp_col = 'date',
        time_series_data_col = 'views',
        data_frequency = 'DAILY',
        horizon = 365)
    AS
    SELECT
      *
    FROM
      `bqml_tutorial.googleio_page_views`
    WHERE
      date < '2022-01-01';
    

예측 결과 시각화

기본 제공 공휴일을 사용하여 모델을 만든 후 bqml_tutorial.googleio_page_views 테이블의 원본 데이터를 ML.EXPLAIN_FORECAST 함수의 예측 값과 조인합니다. 그런 다음 Looker Studio를 사용하여 시각화합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT
      original.date,
      original.views AS original_views,
      explain_forecast.time_series_adjusted_data
        AS adjusted_views_without_custom_holiday,
    FROM
      `bqml_tutorial.googleio_page_views` original
    INNER JOIN
      (
        SELECT
          *
        FROM
          ML.EXPLAIN_FORECAST(
            MODEL `bqml_tutorial.forecast_googleio`,
            STRUCT(365 AS horizon))
      ) explain_forecast
      ON
        TIMESTAMP(original.date)
        = explain_forecast.time_series_timestamp
    ORDER BY
      original.date;
    
  3. 쿼리 결과 창에서 데이터 탐색을 클릭한 후 Looker Studio로 탐색을 클릭합니다. Looker Studio가 새 탭에서 열립니다.

  4. Looker Studio 탭에서 차트 추가를 클릭한 후 시계열 차트를 클릭합니다.

    시계열 차트 추가하기

    차트를 보고서에 놓습니다.

  5. 차트 창의 설정 탭에서 측정항목 추가를 클릭하고 fixeded_views_without_custom_holiday를 선택합니다.

    측정항목을 더 추가하기

    차트는 다음과 유사합니다.

    기본 공휴일을 사용한 예측 결과의 시계열 차트

    예측 모델은 일반적인 추세를 상당히 잘 포착하는 것을 볼 수 있습니다. 하지만 이전 Google I/O 이벤트와 관련하여 증가한 트래픽을 캡처하지 않으며 다음에 대한 정확한 예측을 생성할 수 없습니다.

    1. 다음 섹션에서는 이러한 제한 사항 중 일부를 처리하는 방법을 보여줍니다.

기본 공휴일 및 커스텀 공휴일을 사용하는 시계열 예측 모델 만들기

Google I/O 기록에서 볼 수 있듯이 Google I/O 이벤트는 2017년과 2022년 사이에 서로 다른 날짜에 발생했습니다. 이러한 변화를 고려하기 위해 2022년 이전의 페이지 조회 데이터를 기반으로 2022년까지 Wikipedia 'Google_I/O' 페이지의 페이지 조회수를 예측하고 커스텀 휴일을 사용하여 매년 열리는 Google I/O 이벤트 나타내는 모델을 만듭니다. 이 모델에서는 또한 이벤트 날짜 전후 3일을 포함하도록 휴일 효과 기간을 조정하여 이벤트 전후에 일부 잠재적인 페이지 트래픽을 더 효과적으로 캡처합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    CREATE OR REPLACE MODEL `bqml_tutorial.forecast_googleio_with_custom_holiday`
      OPTIONS (
        model_type = 'ARIMA_PLUS',
        holiday_region = 'US',
        time_series_timestamp_col = 'date',
        time_series_data_col = 'views',
        data_frequency = 'DAILY',
        horizon = 365)
    AS (
      training_data AS (
          SELECT
            *
          FROM
            `bqml_tutorial.googleio_page_views`
          WHERE
            date < '2022-01-01'
        ),
      custom_holiday AS (
          SELECT
            'US' AS region,
            'GoogleIO' AS holiday_name,
            primary_date,
            1 AS preholiday_days,
            2 AS postholiday_days
          FROM
            UNNEST(
              [
                DATE('2017-05-17'),
                DATE('2018-05-08'),
                DATE('2019-05-07'),
                -- cancelled in 2020 due to pandemic
                DATE('2021-05-18'),
                DATE('2022-05-11')])
              AS primary_date
        )
    );
    

예측 결과 시각화

커스텀 공휴일을 사용하여 모델을 만든 후 bqml_tutorial.googleio_page_views 테이블의 원본 데이터를 ML.EXPLAIN_FORECAST 함수의 예측 값과 조인합니다. 그런 다음 Looker Studio를 사용하여 시각화합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT
      original.date,
      original.views AS original_views,
      explain_forecast.time_series_adjusted_data
        AS adjusted_views_with_custom_holiday,
    FROM
      `bqml_tutorial.googleio_page_views` original
    INNER JOIN
      (
        SELECT
          *
        FROM
          ML.EXPLAIN_FORECAST(
            MODEL
              `bqml_tutorial.forecast_googleio_with_custom_holiday`,
            STRUCT(365 AS horizon))
      ) explain_forecast
      ON
        TIMESTAMP(original.date)
        = explain_forecast.time_series_timestamp
    ORDER BY
      original.date;
    
  3. 쿼리 결과 창에서 데이터 탐색을 클릭한 후 Looker Studio로 탐색을 클릭합니다. Looker Studio가 새 탭에서 열립니다.

  4. Looker Studio 탭에서 차트 추가를 클릭하고 시계열 차트를 클릭한 후 차트를 보고서에 배치합니다.

  5. 차트 창의 설정 탭에서 측정항목 추가를 클릭하고 Adjusted_views_with_custom_holiday를 선택합니다.

    차트는 다음과 유사합니다.

    커스텀 공휴일을 사용한 예측 결과의 시계열 차트

    이와 같이 커스텀 공휴일은 예측 모델의 성능을 향상시켰습니다. 이제 Google I/O로 인한 페이지 조회수 증가를 효과적으로 캡처합니다.

공휴일 정보 검사

ML.HOLIDAY_INFO 함수를 사용하여 모델링 중에 고려한 공휴일 목록을 검사합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT *
    FROM
      ML.HOLIDAY_INFO(
        MODEL `bqml_tutorial.forecast_googleio_with_custom_holiday`);
    

    결과는 Google I/O와 기본 제공 공휴일을 모두 공휴일 목록에 표시합니다.

    ML.HOLIDAY_INFO 함수의 결과

커스텀 공휴일 효과 평가

ML.EXPLAIN_FORECAST 함수를 사용하여 예측 결과에 대한 커스텀 공휴일의 효과를 평가합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT
      time_series_timestamp,
      holiday_effect_GoogleIO,
      holiday_effect_US_Juneteenth,
      holiday_effect_Christmas,
      holiday_effect_NewYear
    FROM
      ML.EXPLAIN_FORECAST(
        model
          `bqml_tutorial.forecast_googleio_with_custom_holiday`,
        STRUCT(365 AS horizon))
    WHERE holiday_effect != 0;
    

    결과는 Google I/O가 예측 결과에 많은 양의 공휴일 영향을 미치는 것으로 표시됩니다.

    ML.EXPLAIN_FORECAST 함수의 결과입니다.

모델 성능 비교

ML.EVALUATE 함수를 사용하여 커스텀 공휴일 없이 만든 첫 번째 모델과 커스텀 공휴일로 만든 두 번째 모델의 성능을 비교합니다. 미래의 커스텀 공휴일을 예측하는 데 두 번째 모델의 성능을 확인하려면 기간을 2022년 Google I/O 주간으로 설정합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT
      "original" AS model_type,
      *
    FROM
      ml.evaluate(
        MODEL `bqml_tutorial.forecast_googleio`,
        (
          SELECT
            *
          FROM
            `bqml_tutorial.googleio_page_views`
          WHERE
            date >= '2022-05-08'
            AND date < '2022-05-12'
        ),
        STRUCT(
          365 AS horizon,
          TRUE AS perform_aggregation))
    UNION ALL
    SELECT
      "with_custom_holiday" AS model_type,
      *
    FROM
      ml.evaluate(
        MODEL
          `bqml_tutorial.forecast_googleio_with_custom_holiday`,
        (
          SELECT
            *
          FROM
            `bqml_tutorial.googleio_page_views`
          WHERE
            date >= '2022-05-08'
            AND date < '2022-05-12'
        ),
        STRUCT(
          365 AS horizon,
          TRUE AS perform_aggregation));
    

    결과는 두 번째 모델이 상당한 성능 개선을 제공하는 것을 보여줍니다.

    ML.EXPLAIN_FORECAST 함수의 결과입니다.

삭제

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.