시계열 예측 모델에서 커스텀 공휴일 사용
이 튜토리얼에서는 다음 작업을 처리하는 방법을 보여줍니다.
- 기본 제공 공휴일만 사용하는
ARIMA_PLUS
시계열 예측 모델 만들기 - 기본 공휴일 외에도 커스텀 공휴일을 사용하는
ARIMA_PLUS
시계열 예측 모델 만들기 - 이러한 모델의 예측 결과를 시각화하기
- 모델을 검사하여 모델링되는 휴일을 확인하기
- 커스텀 공휴일이 예측 결과에 미치는 영향을 평가하기
- 기본 제공 공휴일만 사용하는 모델의 성능과 기본 제공 공휴일 외에도 커스텀 공휴일을 사용하는 모델의 성능을 비교하기
이 튜토리얼에서는 bigquery-public-data.wikipedia.pageviews_*
공개 테이블을 사용합니다.
필수 권한
- 데이터 세트를 만들려면
bigquery.datasets.create
IAM 권한이 필요합니다. 연결 리소스를 만들려면 다음 권한이 필요합니다.
bigquery.connections.create
bigquery.connections.get
모델을 만들려면 다음 권한이 필요합니다.
bigquery.jobs.create
bigquery.models.create
bigquery.models.getData
bigquery.models.updateData
bigquery.connections.delegate
추론을 실행하려면 다음 권한이 필요합니다.
bigquery.models.getData
bigquery.jobs.create
BigQuery에서 IAM 역할 및 권한에 대한 자세한 내용은 IAM 소개를 참조하세요.
비용
이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.
- BigQuery: You incur costs for the data you process in BigQuery.
프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.
자세한 내용은 BigQuery 가격을 참조하세요.
시작하기 전에
- Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the BigQuery API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the BigQuery API.
데이터 세트 생성
ML 모델을 저장할 BigQuery 데이터 세트를 만듭니다.
Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.
탐색기 창에서 프로젝트 이름을 클릭합니다.
작업 보기 > 데이터 세트 만들기를 클릭합니다.
데이터 세트 만들기 페이지에서 다음을 수행합니다.
데이터 세트 ID에
bqml_tutorial
를 입력합니다.위치 유형에 대해 멀티 리전을 선택한 다음 US(미국 내 여러 리전)를 선택합니다.
공개 데이터 세트는
US
멀티 리전에 저장됩니다. 편의상 같은 위치에 데이터 세트를 저장합니다.나머지 기본 설정은 그대로 두고 데이터 세트 만들기를 클릭합니다.
시계열 데이터 준비
Google I/O 페이지의 위키백과 페이지 조회 데이터를 일별로 그룹화한 단일 테이블로 집계합니다.
BigQuery 페이지로 이동합니다.
SQL 편집자 창에서 다음 SQL 문을 실행합니다.
CREATE OR REPLACE TABLE `bqml_tutorial.googleio_page_views` AS SELECT DATETIME_TRUNC(datehour, DAY) AS date, SUM(views) AS views FROM `bigquery-public-data.wikipedia.pageviews_*` WHERE datehour >= '2017-01-01' AND datehour < '2023-01-01' AND title = 'Google_I/O' GROUP BY DATETIME_TRUNC(datehour, DAY)
기본 공휴일을 사용하는 시계열 예측 모델 만들기
2022년 이전의 페이지 조회 데이터를 기반으로 Wikipedia 'Google I/O' 페이지의 일일 페이지 조회수를 예측하고 기본 제공되는 공휴일을 고려하는 모델을 만듭니다.
BigQuery 페이지로 이동합니다.
SQL 편집자 창에서 다음 SQL 문을 실행합니다.
CREATE OR REPLACE MODEL `bqml_tutorial.forecast_googleio` OPTIONS ( model_type = 'ARIMA_PLUS', holiday_region = 'US', time_series_timestamp_col = 'date', time_series_data_col = 'views', data_frequency = 'DAILY', horizon = 365) AS SELECT * FROM `bqml_tutorial.googleio_page_views` WHERE date < '2022-01-01';
예측 결과 시각화
기본 제공 공휴일을 사용하여 모델을 만든 후 bqml_tutorial.googleio_page_views
테이블의 원본 데이터를 ML.EXPLAIN_FORECAST
함수의 예측 값과 조인합니다. 그런 다음 Looker Studio를 사용하여 시각화합니다.
BigQuery 페이지로 이동합니다.
SQL 편집자 창에서 다음 SQL 문을 실행합니다.
SELECT original.date, original.views AS original_views, explain_forecast.time_series_adjusted_data AS adjusted_views_without_custom_holiday, FROM `bqml_tutorial.googleio_page_views` original INNER JOIN ( SELECT * FROM ML.EXPLAIN_FORECAST( MODEL `bqml_tutorial.forecast_googleio`, STRUCT(365 AS horizon)) ) explain_forecast ON TIMESTAMP(original.date) = explain_forecast.time_series_timestamp ORDER BY original.date;
쿼리 결과 창에서 데이터 탐색을 클릭한 후 Looker Studio로 탐색을 클릭합니다. Looker Studio가 새 탭에서 열립니다.
Looker Studio 탭에서 차트 추가를 클릭한 후 시계열 차트를 클릭합니다.
차트를 보고서에 놓습니다.
차트 창의 설정 탭에서 측정항목 추가를 클릭하고 fixeded_views_without_custom_holiday를 선택합니다.
차트는 다음과 유사합니다.
예측 모델은 일반적인 추세를 상당히 잘 포착하는 것을 볼 수 있습니다. 하지만 이전 Google I/O 이벤트와 관련하여 증가한 트래픽을 캡처하지 않으며 다음에 대한 정확한 예측을 생성할 수 없습니다.
- 다음 섹션에서는 이러한 제한 사항 중 일부를 처리하는 방법을 보여줍니다.
기본 공휴일 및 커스텀 공휴일을 사용하는 시계열 예측 모델 만들기
Google I/O 기록에서 볼 수 있듯이 Google I/O 이벤트는 2017년과 2022년 사이에 서로 다른 날짜에 발생했습니다. 이러한 변화를 고려하기 위해 2022년 이전의 페이지 조회 데이터를 기반으로 2022년까지 Wikipedia 'Google_I/O' 페이지의 페이지 조회수를 예측하고 커스텀 휴일을 사용하여 매년 열리는 Google I/O 이벤트 나타내는 모델을 만듭니다. 이 모델에서는 또한 이벤트 날짜 전후 3일을 포함하도록 휴일 효과 기간을 조정하여 이벤트 전후에 일부 잠재적인 페이지 트래픽을 더 효과적으로 캡처합니다.
BigQuery 페이지로 이동합니다.
SQL 편집자 창에서 다음 SQL 문을 실행합니다.
CREATE OR REPLACE MODEL `bqml_tutorial.forecast_googleio_with_custom_holiday` OPTIONS ( model_type = 'ARIMA_PLUS', holiday_region = 'US', time_series_timestamp_col = 'date', time_series_data_col = 'views', data_frequency = 'DAILY', horizon = 365) AS ( training_data AS ( SELECT * FROM `bqml_tutorial.googleio_page_views` WHERE date < '2022-01-01' ), custom_holiday AS ( SELECT 'US' AS region, 'GoogleIO' AS holiday_name, primary_date, 1 AS preholiday_days, 2 AS postholiday_days FROM UNNEST( [ DATE('2017-05-17'), DATE('2018-05-08'), DATE('2019-05-07'), -- cancelled in 2020 due to pandemic DATE('2021-05-18'), DATE('2022-05-11')]) AS primary_date ) );
예측 결과 시각화
커스텀 공휴일을 사용하여 모델을 만든 후 bqml_tutorial.googleio_page_views
테이블의 원본 데이터를 ML.EXPLAIN_FORECAST
함수의 예측 값과 조인합니다. 그런 다음 Looker Studio를 사용하여 시각화합니다.
BigQuery 페이지로 이동합니다.
SQL 편집자 창에서 다음 SQL 문을 실행합니다.
SELECT original.date, original.views AS original_views, explain_forecast.time_series_adjusted_data AS adjusted_views_with_custom_holiday, FROM `bqml_tutorial.googleio_page_views` original INNER JOIN ( SELECT * FROM ML.EXPLAIN_FORECAST( MODEL `bqml_tutorial.forecast_googleio_with_custom_holiday`, STRUCT(365 AS horizon)) ) explain_forecast ON TIMESTAMP(original.date) = explain_forecast.time_series_timestamp ORDER BY original.date;
쿼리 결과 창에서 데이터 탐색을 클릭한 후 Looker Studio로 탐색을 클릭합니다. Looker Studio가 새 탭에서 열립니다.
Looker Studio 탭에서 차트 추가를 클릭하고 시계열 차트를 클릭한 후 차트를 보고서에 배치합니다.
차트 창의 설정 탭에서 측정항목 추가를 클릭하고 Adjusted_views_with_custom_holiday를 선택합니다.
차트는 다음과 유사합니다.
이와 같이 커스텀 공휴일은 예측 모델의 성능을 향상시켰습니다. 이제 Google I/O로 인한 페이지 조회수 증가를 효과적으로 캡처합니다.
공휴일 정보 검사
ML.HOLIDAY_INFO
함수를 사용하여 모델링 중에 고려한 공휴일 목록을 검사합니다.
BigQuery 페이지로 이동합니다.
SQL 편집자 창에서 다음 SQL 문을 실행합니다.
SELECT * FROM ML.HOLIDAY_INFO( MODEL `bqml_tutorial.forecast_googleio_with_custom_holiday`);
결과는 Google I/O와 기본 제공 공휴일을 모두 공휴일 목록에 표시합니다.
커스텀 공휴일 효과 평가
ML.EXPLAIN_FORECAST
함수를 사용하여 예측 결과에 대한 커스텀 공휴일의 효과를 평가합니다.
BigQuery 페이지로 이동합니다.
SQL 편집자 창에서 다음 SQL 문을 실행합니다.
SELECT time_series_timestamp, holiday_effect_GoogleIO, holiday_effect_US_Juneteenth, holiday_effect_Christmas, holiday_effect_NewYear FROM ML.EXPLAIN_FORECAST( model `bqml_tutorial.forecast_googleio_with_custom_holiday`, STRUCT(365 AS horizon)) WHERE holiday_effect != 0;
결과는 Google I/O가 예측 결과에 많은 양의 공휴일 영향을 미치는 것으로 표시됩니다.
모델 성능 비교
ML.EVALUATE
함수를 사용하여 커스텀 공휴일 없이 만든 첫 번째 모델과 커스텀 공휴일로 만든 두 번째 모델의 성능을 비교합니다. 미래의 커스텀 공휴일을 예측하는 데 두 번째 모델의 성능을 확인하려면 기간을 2022년 Google I/O 주간으로 설정합니다.
BigQuery 페이지로 이동합니다.
SQL 편집자 창에서 다음 SQL 문을 실행합니다.
SELECT "original" AS model_type, * FROM ml.evaluate( MODEL `bqml_tutorial.forecast_googleio`, ( SELECT * FROM `bqml_tutorial.googleio_page_views` WHERE date >= '2022-05-08' AND date < '2022-05-12' ), STRUCT( 365 AS horizon, TRUE AS perform_aggregation)) UNION ALL SELECT "with_custom_holiday" AS model_type, * FROM ml.evaluate( MODEL `bqml_tutorial.forecast_googleio_with_custom_holiday`, ( SELECT * FROM `bqml_tutorial.googleio_page_views` WHERE date >= '2022-05-08' AND date < '2022-05-12' ), STRUCT( 365 AS horizon, TRUE AS perform_aggregation));
결과는 두 번째 모델이 상당한 성능 개선을 제공하는 것을 보여줍니다.
삭제
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.