データ準備をオーケストレートする
このドキュメントでは、手動実行とスケジュール設定された実行を行う方法など、データ準備パイプラインをオーケストレートする方法について説明します。
データ準備は Dataform によって行われます。
データ準備は、カスタム Dataform サービス アカウントを使用して実行されます。このアカウントは、スケジュールまたはテスト実行の構成時に選択します。詳細については、Dataform のサービス アカウントについてをご覧ください。
データ準備ステップに加えた変更は自動的に保存されません。スケジュールで実行するには、変更を保存してデプロイする必要があります。スケジュールは、常にデプロイされた最新バージョンのデータ準備を実行し、開発中のデプロイされていない変更は除外します。
始める前に
始める前に、データ準備を作成します。
必要なロール
データ準備を実行するには、データ準備の実行に使用するサービス アカウントにロールを付与する必要があります。詳細については、必要なロールをご覧ください。
データ準備を開発する
データ準備を開発するときに、変更を本番環境にデプロイする前に、手動でステップを実行して出力を検査できます。開発中の現在のバージョンをデータでテストできます。BigQuery は、スケジュールに従って、デプロイされた最新バージョンを引き続き実行します。実行を実行する前に、宛先を構成し、検証エラーを修正する必要があります。
開発環境でデータ準備を手動で実行する
データ準備手順をテストし、宛先テーブルの結果を検証するには、データ準備エディタからデータ準備を手動で実行します。
Google Cloud コンソールで、[BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [データ準備] フォルダを開きます。実行するデータ準備の名前をクリックします。
実行用のサービス アカウントの権限を構成します。
- データ準備エディタのツールバーで、無効になっている [実行] オプションの上にポインタを置きます。
- サービス アカウントの構成に関する情報が表示されたダイアログで、[構成] をクリックします。
- [サービス アカウントの設定] ダイアログで、サービス アカウントを選択します。
- サービス アカウントに追加の権限が必要な場合は、[すべて付与] をクリックして必要なロールを付与します。
- [保存] をクリックします。
省略可: 今後の実行用にサービス アカウントを更新するには、データ準備エディタのツールバーに移動し、[その他] > [今すぐ実行を構成] エクスペリエンスをクリックして、サービス アカウントの設定を更新して保存します。
表示された検証エラーを修正します。
データ準備エディタのツールバーで [実行] をクリックします。
[今すぐ実行] ダイアログで [確認] をクリックして、この手動実行で宛先テーブルにデータが書き込まれることを確認します。このテーブルは、スケジュール設定された実行にも使用できます。
実行すると、ステップが実行され、出力が宛先に読み込まれます。
省略可: 実行が完了すると、[実行] ペインに実行の詳細が表示されます。
データ準備をデプロイする
データ準備のバージョンの実行をスケジュールするには、まずそのバージョンをデプロイする必要があります。スケジュールは、デプロイされた最新バージョンを実行します。
データ準備をデプロイする手順は次のとおりです。
Google Cloud コンソールで、[BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [データ準備] フォルダを開きます。選択したデータ準備の名前をクリックします。
データ準備エディタが開きます。
データ準備エディタのツールバーで [Deploy] をクリックします。
スケジュールを作成
デプロイされたデータ準備手順を実行し、準備したデータを宛先テーブルに読み込むスケジュールを作成するには、データ準備実行をスケジュールします。実行をスケジュールするには、宛先を構成し、検証エラーを修正する必要があります。
スケジュールを作成する手順は次のとおりです。
Google Cloud コンソールで、[BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [データ準備] フォルダを開きます。スケジュールを設定するデータ準備の名前をクリックします。
データ準備エディタのツールバーで [スケジュール] をクリックします。
スケジュールの名前を入力します。
実行に関連付けられているサービス アカウント名を入力します。
頻度を設定します。
[スケジュールを作成] をクリックします。
スケジュール設定されたデータ準備を手動で実行する
選択したスケジュールでデータ準備を手動で実行すると、BigQuery はスケジュールとは関係なく、データ準備を 1 回実行します。
スケジュール設定されたデータ準備を手動で実行する手順は次のとおりです。
Google Cloud コンソールで、[Scheduling] ページに移動します。
選択したデータ準備のスケジュールの名前をクリックします。
[スケジュールの詳細] ページで [実行] をクリックします。
スケジュールを表示
データ準備のスケジュールは、データ準備エディタまたは [スケジュール] ページで確認できます。
データ準備エディタ
データ準備のスケジュールを表示する手順は次のとおりです。
- データ準備エディタのツールバーで、[スケジュール] [スケジュールを表示] をクリックします。
- 省略可: スケジュールの履歴を表示するには、[過去の実行を表示] をクリックします。
スケジュール設定ページ
プロジェクト内のすべてのデータ準備スケジュールを表示する手順は次のとおりです。
Google Cloud コンソールで、[Scheduling] ページに移動します。
省略可: 選択したスケジュールの実行履歴と詳細を表示するには、スケジュールの名前をクリックします。手動実行の履歴は表示されません。
スケジュールを編集する
スケジュールは、データ準備エディタまたは [スケジュール] ページで編集できます。
データ準備エディタ
スケジュールを編集する手順は次のとおりです。
- データ準備エディタのツールバーで、[スケジュール] [スケジュールを表示] をクリックします。
- [データ準備のスケジュール設定] ダイアログで [編集] をクリックし、スケジュールを更新します。
- [スケジュールを更新] をクリックします。
スケジュール設定ページ
スケジュールを編集する手順は次のとおりです。
Google Cloud コンソールで、[Scheduling] ページに移動します。
選択したデータ準備のスケジュールの名前をクリックします。
[スケジュールの詳細] ページで、[編集] をクリックします。
[スケジュールを表示] をクリックします。
[データ準備のスケジュール設定] ダイアログで [編集] をクリックし、スケジュールを更新します。
[スケジュールを更新] をクリックします。
スケジュールの削除
選択したデータ準備のスケジュールを完全に削除する手順は次のとおりです。
Google Cloud コンソールで、[Scheduling] ページに移動します。
スケジュールを含む行で、more_vert [アクション > 削除] をクリックします。