データ準備をオーケストレートする

このドキュメントでは、手動実行とスケジュール設定された実行を行う方法など、データ準備パイプラインをオーケストレートする方法について説明します。

データ準備は Dataform によって行われます。

データ準備は、カスタム Dataform サービス アカウントを使用して実行されます。このアカウントは、スケジュールまたはテスト実行の構成時に選択します。詳細については、Dataform のサービス アカウントについてをご覧ください。

データ準備ステップに加えた変更は自動的に保存されません。スケジュールで実行するには、変更を保存してデプロイする必要があります。スケジュールは、常にデプロイされた最新バージョンのデータ準備を実行し、開発中のデプロイされていない変更は除外します。

始める前に

始める前に、データ準備を作成します。

必要なロール

データ準備を実行するには、データ準備の実行に使用するサービス アカウントにロールを付与する必要があります。詳細については、必要なロールをご覧ください。

データ準備を開発する

データ準備を開発するときに、変更を本番環境にデプロイする前に、手動でステップを実行して出力を検査できます。開発中の現在のバージョンをデータでテストできます。BigQuery は、スケジュールに従って、デプロイされた最新バージョンを引き続き実行します。実行を実行する前に、宛先を構成し、検証エラーを修正する必要があります。

開発環境でデータ準備を手動で実行する

データ準備手順をテストし、宛先テーブルの結果を検証するには、データ準備エディタからデータ準備を手動で実行します。

  1. Google Cloud コンソールで、[BigQuery] ページに移動します。

    BigQuery に移動

  2. [エクスプローラ] ペインで、プロジェクトと [データ準備] フォルダを開きます。実行するデータ準備の名前をクリックします。

  3. 実行用のサービス アカウントの権限を構成します。

    1. データ準備エディタのツールバーで、無効になっている [実行] オプションの上にポインタを置きます。
    2. サービス アカウントの構成に関する情報が表示されたダイアログで、[構成] をクリックします。
    3. [サービス アカウントの設定] ダイアログで、サービス アカウントを選択します。
    4. サービス アカウントに追加の権限が必要な場合は、[すべて付与] をクリックして必要なロールを付与します。
    5. [保存] をクリックします。
  4. 省略可: 今後の実行用にサービス アカウントを更新するには、データ準備エディタのツールバーに移動し、[その他] > [今すぐ実行を構成] エクスペリエンスをクリックして、サービス アカウントの設定を更新して保存します。

  5. 表示された検証エラーを修正します。

  6. データ準備エディタのツールバーで [実行] をクリックします。

  7. [今すぐ実行] ダイアログで [確認] をクリックして、この手動実行で宛先テーブルにデータが書き込まれることを確認します。このテーブルは、スケジュール設定された実行にも使用できます。

    実行すると、ステップが実行され、出力が宛先に読み込まれます。

  8. 省略可: 実行が完了すると、[実行] ペインに実行の詳細が表示されます。

データ準備をデプロイする

データ準備のバージョンの実行をスケジュールするには、まずそのバージョンをデプロイする必要があります。スケジュールは、デプロイされた最新バージョンを実行します。

データ準備をデプロイする手順は次のとおりです。

  1. Google Cloud コンソールで、[BigQuery] ページに移動します。

    BigQuery に移動

  2. [エクスプローラ] ペインで、プロジェクトと [データ準備] フォルダを開きます。選択したデータ準備の名前をクリックします。

    データ準備エディタが開きます。

  3. データ準備エディタのツールバーで [Deploy] をクリックします。

スケジュールを作成

デプロイされたデータ準備手順を実行し、準備したデータを宛先テーブルに読み込むスケジュールを作成するには、データ準備実行をスケジュールします。実行をスケジュールするには、宛先を構成し、検証エラーを修正する必要があります。

スケジュールを作成する手順は次のとおりです。

  1. Google Cloud コンソールで、[BigQuery] ページに移動します。

    BigQuery に移動

  2. [エクスプローラ] ペインで、プロジェクトと [データ準備] フォルダを開きます。スケジュールを設定するデータ準備の名前をクリックします。

  3. データ準備エディタのツールバーで [スケジュール] をクリックします。

  4. スケジュールの名前を入力します。

  5. 実行に関連付けられているサービス アカウント名を入力します。

  6. 頻度を設定します。

  7. [スケジュールを作成] をクリックします。

スケジュール設定されたデータ準備を手動で実行する

選択したスケジュールでデータ準備を手動で実行すると、BigQuery はスケジュールとは関係なく、データ準備を 1 回実行します。

スケジュール設定されたデータ準備を手動で実行する手順は次のとおりです。

  1. Google Cloud コンソールで、[Scheduling] ページに移動します。

    [スケジューリング] に移動

  2. 選択したデータ準備のスケジュールの名前をクリックします。

  3. [スケジュールの詳細] ページで [実行] をクリックします。

スケジュールを表示

データ準備のスケジュールは、データ準備エディタまたは [スケジュール] ページで確認できます。

データ準備エディタ

データ準備のスケジュールを表示する手順は次のとおりです。

  1. データ準備エディタのツールバーで、[スケジュール] [スケジュールを表示] をクリックします。
  2. 省略可: スケジュールの履歴を表示するには、[過去の実行を表示] をクリックします。

スケジュール設定ページ

プロジェクト内のすべてのデータ準備スケジュールを表示する手順は次のとおりです。

  1. Google Cloud コンソールで、[Scheduling] ページに移動します。

    [スケジューリング] に移動

  2. 省略可: 選択したスケジュールの実行履歴と詳細を表示するには、スケジュールの名前をクリックします。手動実行の履歴は表示されません。

スケジュールを編集する

スケジュールは、データ準備エディタまたは [スケジュール] ページで編集できます。

データ準備エディタ

スケジュールを編集する手順は次のとおりです。

  1. データ準備エディタのツールバーで、[スケジュール] [スケジュールを表示] をクリックします。
  2. [データ準備のスケジュール設定] ダイアログで [編集] をクリックし、スケジュールを更新します。
  3. [スケジュールを更新] をクリックします。

スケジュール設定ページ

スケジュールを編集する手順は次のとおりです。

  1. Google Cloud コンソールで、[Scheduling] ページに移動します。

    [スケジューリング] に移動

  2. 選択したデータ準備のスケジュールの名前をクリックします。

  3. [スケジュールの詳細] ページで、[編集] をクリックします。

  4. [スケジュールを表示] をクリックします。

  5. [データ準備のスケジュール設定] ダイアログで [編集] をクリックし、スケジュールを更新します。

  6. [スケジュールを更新] をクリックします。

スケジュールの削除

選択したデータ準備のスケジュールを完全に削除する手順は次のとおりです。

  1. Google Cloud コンソールで、[Scheduling] ページに移動します。

    [スケジューリング] に移動

  2. スケジュールを含む行で、more_vert [アクション > 削除] をクリックします。

次のステップ