このページでは、Cloud Data Fusion にパイプラインをデプロイして実行する基本事項について説明します。
パイプラインをデプロイする
データ パイプラインの設計とデバッグが完了し Preview に表示されるデータが満足するものであれば、パイプラインをデプロイする準備が整いました
パイプラインをデプロイすると、Cloud Data Fusion Studio は、ワークフローと対応する Apache Spark ジョブをバックグラウンドで実行します。
パイプラインを実行する
パイプラインをデプロイした後は、次の方法でパイプラインを実行できます。
- オンデマンドでパイプラインを実行するには、デプロイしたパイプラインを開いて [実行] をクリックします。
- 特定の時間に実行するようにパイプラインをスケジュール設定するには、デプロイしたパイプラインを開き、[スケジュール] をクリックします。
- 別のパイプラインが完了したときにパイプラインをトリガーするには、デプロイしたパイプラインを開き、[受信トリガー] をクリックします。
Pipeline Studio は、実行されるたびにパイプラインの履歴を保存します。パイプラインのランタイム バージョンは、切り替えることができます。
パイプラインにマクロがある場合は、マクロごとにランタイム引数を設定します。デプロイしたパイプラインを実行する前にパイプライン構成を確認して変更することもできます。パイプライン実行の各フェーズにおいて、ステータスが Provisioning、Starting、Running、Succeeded と変わることが確認できます。パイプラインはいつでも停止できます。
インストルメンテーションを有効にすると、パイプラインにある任意のノード(ソース、変換、シンクなど)で [Properties] をクリックすることにより、パイプラインが生成した指標を調べることができます。
パイプライン実行の続きについては、[概要] をクリックしてください。
実行レコードを表示する
パイプラインの実行が完了すると、実行レコードを表示できます。デフォルトでは、過去 30 日間の実行レコードを表示できます。この期間が経過すると、Cloud Data Fusion によって削除されます。この期間は REST API を使用して延長できます。
REST API
実行レコードを 30 日間を超えて保持するには、次のコマンドを使用して app.run.records.ttl
オプションを更新します。
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
以下を置き換えます。
PROJECT_NAME
: Google Cloud プロジェクト名REGION_NAME
: Cloud Data Fusion インスタンスのリージョン(us-east4
など)INSTANCE_NAME
: Cloud Data Fusion インスタンス IDDAYS
: 古いパイプライン実行の実行レコードを保持する日数(例:30
)。HOURS
: 古い実行レコードを確認して削除する頻度(時間単位)(例:24
)。
例:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'
次のステップ
- パイプライン構成の詳細を確認する。