ARIMA_PLUS 単変量モデルを使用して階層型時系列を予測する

このチュートリアルでは、ARIMA_PLUS 単変量時系列モデルを使用して階層型時系列を予測する方法について説明します。指定した列の過去の値に基づいて、その列の将来の値を予測します。また、対象とする 1 つ以上のディメンションについて、その列の統合値も計算します。

予測値は、対象のディメンションを指定する 1 つ以上の列の値ごとに、各時点について計算されます。たとえば、日次の交通規制を予測するために、州データを含むディメンション列を指定した場合、予測データには州 A の各日の値、州 B の各日の値などが含まれます。日次の交通規制を予測するために、州データと都市データを含むディメンション列を指定した場合、予測データには州 A と都市 A の各日の値、州 A と都市 B の各日の値などが含まれます。階層型時系列モデルでは、階層的な調整を使用してすべての子時系列を統合し、親と一致させます。たとえば、州 A のすべての都市の予測値の合計は、州 A の予測値と等しい必要があります。

このチュートリアルでは、同じデータに対して 2 つの時系列モデルを作成します。1 つは階層予測を使用するモデルで、もう 1 つは階層予測を使用しないモデルです。これにより、2 つのモデルから返された結果を比較できます。

このチュートリアルでは、一般公開テーブル bigquery-public-data.iowa_liquor.sales.sales のデータを使用します。このテーブルでは、アイオワ州の一般公開の酒類販売データが使用され、さまざまな店舗で扱われている 100 万点を超える酒類商品に関する情報が含まれています。

このチュートリアルを読む前に、単変量モデルを使用して複数の時系列を予測するをお読みになることを強くおすすめします。

必要な権限

データセットを作成するには、bigquery.datasets.create IAM 権限が必要です。
モデルを作成するには、次の権限が必要です。
- bigquery.jobs.create
- bigquery.models.create
- bigquery.models.getData
- bigquery.models.updateData
推論を実行するには、次の権限が必要です。
- bigquery.models.getData
- bigquery.jobs.create

BigQuery における IAM ロールと権限の詳細については、IAM の概要をご覧ください。

目標

このチュートリアルでは、次のことを行います。

CREATE MODEL ステートメントを使用して、複数の時系列モデルと複数の階層型時系列モデルを作成し、ボトル販売数の値を予測する。
ML.FORECAST 関数を使用して、モデルからボトル販売数の予測値を取得する。

費用

このチュートリアルでは、課金対象となる以下の Google Cloudのコンポーネントを使用しています。

BigQuery
BigQuery ML

BigQuery の費用の詳細については、BigQuery の料金ページをご覧ください。

BigQuery ML の費用の詳細については、BigQuery ML の料金をご覧ください。

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

新しいプロジェクトでは、BigQuery が自動的に有効になります。既存のプロジェクトで BigQuery を有効にするには、
Enable the BigQuery API.
Enable the API
に移動します。

データセットを作成する

ML モデルを保存する BigQuery データセットを作成します。

コンソール

Google Cloud コンソールで、[BigQuery] ページに移動します。

[BigQuery] ページに移動
[エクスプローラ] ペインで、プロジェクト名をクリックします。
[アクションを表示] > [データセットを作成] をクリックします。
[データセットを作成] ページで、次の操作を行います。
- [データセット ID] に「bqml_tutorial」と入力します。
- [ロケーションタイプ] で [マルチリージョン] を選択してから、[US（米国の複数のリージョン）] を選択します。
- 残りのデフォルトの設定は変更せず、[データセットを作成] をクリックします。

bq

新しいデータセットを作成するには、--location フラグを指定した bq mk コマンドを使用します。使用可能なパラメータの一覧については、bq mk --dataset コマンドのリファレンスをご覧ください。

データの場所が US に設定され、BigQuery ML tutorial dataset という説明の付いた、bqml_tutorial という名前のデータセットを作成します。
```
bq --location=US mk -d \
 --description "BigQuery ML tutorial dataset." \
 bqml_tutorial
```
このコマンドでは、--dataset フラグの代わりに -d ショートカットを使用しています。-d と --dataset を省略した場合、このコマンドはデフォルトでデータセットを作成します。
データセットが作成されたことを確認します。
```
bq ls
```

API

定義済みのデータセットリソースを使用して datasets.insert メソッドを呼び出します。

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

BigQuery DataFrames

このサンプルを試す前に、BigQuery DataFrames を使用した BigQuery クイックスタートの手順に沿って BigQuery DataFrames を設定してください。詳細については、BigQuery DataFrames のリファレンスドキュメントをご覧ください。

BigQuery に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の ADC の設定をご覧ください。

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

時系列モデルを作成する

アイオワ州の酒類販売データを使用して時系列モデルを作成します。

次の GoogleSQL クエリは、2015 年にポーク、リン、スコットの各郡で 1 日あたりに販売されたボトルの合計数を予測するモデルを作成します。

次のクエリでは、OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...) 句で ARIMA ベースの時系列モデルを作成することを指示しています。CREATE MODEL ステートメントの TIME_SERIES_ID オプションを使用して、予測を取得する入力データの 1 つ以上の列を指定します。CREATE MODEL ステートメントの auto_arima_max_order オプションは、auto.ARIMA アルゴリズムでのハイパーパラメータチューニングの検索空間を制御します。CREATE MODEL ステートメントの decompose_time_series オプションはデフォルトで TRUE に設定されているため、次のステップでモデルを評価するときに時系列データに関する情報が返されます。

OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...) 句で ARIMA ベースの時系列モデルを作成することを指示しています。デフォルトは auto_arima=TRUE であるため、auto.ARIMA アルゴリズムによって ARIMA_PLUS モデルのハイパーパラメータが自動的に調整されます。アルゴリズムが多数の候補モデルを学習し、赤池情報量規準（AIC）が最も低い最適なモデルを選択します。holiday_region オプションを US に設定すると、時系列に米国の休日パターンがある場合に、米国の休日の時点をより正確にモデリングできます。

次の手順でモデルを作成します。

Google Cloud コンソールで、[BigQuery] ページに移動します。

[BigQuery] に移動

クエリエディタに次のクエリを貼り付け、[実行] をクリックします。

CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast`
  OPTIONS (
    MODEL_TYPE = 'ARIMA_PLUS',
    TIME_SERIES_TIMESTAMP_COL = 'date',
    TIME_SERIES_DATA_COL = 'total_bottles_sold',
    TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'],
    HOLIDAY_REGION = 'US')
AS
SELECT
  store_number,
  zip_code,
  city,
  county,
  date,
  SUM(bottles_sold) AS total_bottles_sold
FROM
  `bigquery-public-data.iowa_liquor_sales.sales`
WHERE
  date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31')
  AND county IN ('POLK', 'LINN', 'SCOTT')
GROUP BY store_number, date, city, zip_code, county;

クエリが完了するまでに約 37 秒かかります。完了後、liquor_forecast モデルが [エクスプローラ] ペインに表示されます。このクエリでは CREATE MODEL ステートメントを使用してモデルを作成するため、クエリの結果はありません。

モデルを使用してデータを予測する

ML.FORECAST 関数を使用して、将来の時系列値を予測します。

次のクエリの STRUCT(20 AS horizon, 0.8 AS confidence_level) 句は、20 個の将来の時点を予測し、信頼度レベル 80% の予測間隔を生成するように指示しています。

次の手順でモデルを使用し、データを予測します。

Google Cloud コンソールで、[BigQuery] ページに移動します。

[BigQuery] に移動
クエリエディタに次のクエリを貼り付け、[実行] をクリックします。
```
SELECT *
FROM
  ML.FORECAST(
    MODEL `bqml_tutorial.liquor_forecast`,
    STRUCT(20 AS horizon, 0.8 AS confidence_level))
ORDER BY store_number, county, city, zip_code, forecast_timestamp;
```
結果は次のようになります。

出力は、最初の時系列の予測データで始まります（store_number=2190、zip_code=50314、city=DES MOINES、county=POLK）。データをスクロールすると、後続の一意の時系列ごとの予測が表示されます。特定の郡に対する予測など、さまざまなディメンションの合計を集計する予測を生成するには、階層予測を生成する必要があります。

階層型時系列モデルを作成する

アイオワ州の酒類販売データを使用して、階層型の時系列予測を作成します。

次の GoogleSQL クエリでは、2015 年にポーク、リン、スコットの各郡で 1 日あたりに販売されたボトルの合計数の階層予測を生成するモデルを作成します。

次のクエリでは、CREATE MODEL ステートメントの HIERARCHICAL_TIME_SERIES_COLS オプションで、指定した一連の列に基づいて階層予測を作成することを指示しています。これらの列はそれぞれ統合され、集計されます。たとえば、前述のクエリでは、store_number 列の値が統合され、county、city、zip_code の各値の予測が表示されます。また、それとは別に、zip_code と store_number の値が統合され、county と city の各値の予測が表示されます。列の順序で階層構造を定義するため、これは重要になります。

次の手順でモデルを作成します。

Google Cloud コンソールで、[BigQuery] ページに移動します。

[BigQuery] に移動

クエリエディタに次のクエリを貼り付け、[実行] をクリックします。

CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast_hierarchical`
  OPTIONS (
    MODEL_TYPE = 'ARIMA_PLUS',
    TIME_SERIES_TIMESTAMP_COL = 'date',
    TIME_SERIES_DATA_COL = 'total_bottles_sold',
    TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'],
    HIERARCHICAL_TIME_SERIES_COLS = ['zip_code', 'store_number'],
    HOLIDAY_REGION = 'US')
AS
SELECT
  store_number,
  zip_code,
  city,
  county,
  date,
  SUM(bottles_sold) AS total_bottles_sold
FROM
  `bigquery-public-data.iowa_liquor_sales.sales`
WHERE
  date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31')
  AND county IN ('POLK', 'LINN', 'SCOTT')
GROUP BY store_number, date, city, zip_code, county;

クエリが完了するまでに約 45 秒かかります。完了後、bqml_tutorial.liquor_forecast_hierarchical モデルが [エクスプローラ] ペインに表示されます。クエリは CREATE MODEL ステートメントを使用してモデルを作成するため、クエリの結果はありません。

階層モデルを使用してデータを予測する

ML.FORECAST 関数を使用して、モデルから階層予測データを取得します。

次の手順でモデルを使用し、データを予測します。

Google Cloud コンソールで、[BigQuery] ページに移動します。

[BigQuery] に移動
クエリエディタに次のクエリを貼り付け、[実行] をクリックします。
```
SELECT
  *
FROM
  ML.FORECAST(
    MODEL `bqml_tutorial.liquor_forecast_hierarchical`,
    STRUCT(30 AS horizon, 0.8 AS confidence_level))
WHERE city = 'LECLAIRE'
ORDER BY county, city, zip_code, store_number, forecast_timestamp;
```
結果は次のようになります。

ルクレア市について集計された予測がどのように表示されているのかに注目しましょう（store_number=NULL、zip_code=NULL、city=LECLAIRE、county=SCOTT）。残りの行を見ると、他のサブグループの予測を確認できます。たとえば、次の画像では、郵便番号 52753（store_number=NULL、zip_code=52753、city=LECLAIRE、county=SCOTT）について集計された予測が示されています。

クリーンアップ

このチュートリアルで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。

作成したプロジェクトを削除する。
または、プロジェクトを保存して、データセットを削除する。

データセットを削除する

プロジェクトを削除すると、プロジェクト内のデータセットとテーブルがすべて削除されます。プロジェクトを再利用する場合は、このチュートリアルで作成したデータセットを削除できます。

必要に応じて、Google Cloud コンソールで [BigQuery] ページを開きます。

[BigQuery] ページに移動
ナビゲーションで、作成した bqml_tutorial データセットをクリックします。
ウィンドウの右側にある [データセットを削除] をクリックします。この操作を行うと、データセット、テーブル、すべてのデータが削除されます。
[データセットの削除] ダイアログボックスでデータセットの名前（bqml_tutorial）を入力し、[削除] をクリックして確定します。

プロジェクトの削除

プロジェクトを削除するには:

注意: プロジェクトを削除すると、次のような影響があります。

プロジェクト内のすべてのものが削除されます。このドキュメントのタスクで既存のプロジェクトを使用した場合、それを削除すると、そのプロジェクトで行った他の作業もすべて削除されます。
カスタムプロジェクト ID が失われます。このプロジェクトを作成したときに、将来使用するカスタムプロジェクト ID を作成した可能性があります。そのプロジェクト ID を使用した URL（たとえば、appspot.com）を保持するには、プロジェクト全体ではなくプロジェクト内の選択したリソースだけを削除します。

複数のアーキテクチャ、チュートリアル、クイックスタートを実施する予定がある場合は、プロジェクトを再利用すると、プロジェクトの割り当て上限の超過を回避できます。

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

次のステップ

単変量モデルを使用して単一の時系列を予測する方法を学習する。
単変量モデルを使用して複数の時系列を予測する方法を学習する。
多数の行にわたって複数の時系列を予測する際に単変量モデルをスケーリングする方法を学習する。
多変量モデルを使用して単一の時系列を予測する方法を学習する。
BigQuery ML の概要について、BigQuery の AI と ML の概要で確認する。