パイプライン構成を管理する

このページでは、デプロイされたパイプラインの構成を管理する方法について説明します。

始める前に

このページでは、コンピューティングプロファイルとパイプラインのパフォーマンスに関する背景知識が必要です。

コンピューティングプロファイルの構成

コンピューティングプロファイルを変更するか、パイプラインを実行するデフォルトのコンピューティングプロファイルのパラメータをカスタマイズできます。詳細については、コンピューティングプロファイルを管理すると Dataproc プロビジョナーのプロパティをご覧ください。

パイプライン構成

パイプラインごとに、タイミング指標などの計測を有効または無効にできます。デフォルトでは、計測はオンになっています。計測が有効になっている場合、パイプラインを実行すると、Cloud Data Fusion は各パイプラインノードの指標を生成します。次の指標は、各ノードの [指標] タブに表示されます。ソース、変換、シンクの指標は若干異なります。

送信レコード
受信レコード
エラーの合計数。
1 秒あたりの送信レコード
Min process time (one record)
Max process time (one record)
標準偏差
Average processing time

環境のリソースが不足している場合を除き、常に計測を有効にすることをおすすめします。

ストリーミングパイプラインの場合は、ストリーミングデータのバッチ間隔（秒単位または分単位）を設定することもできます。

エンジンの設定

Apache Spark がデフォルトの実行エンジンです。Spark のカスタムパラメータを渡すことができます。詳細については、並列処理をご覧ください。

リソース

Spark ドライバとエグゼキュータのメモリと CPU 数を指定できます。ドライバは Spark ジョブをオーケストレートします。エグゼキュータは、Spark でのデータ処理を処理します。詳細については、リソース管理をご覧ください。

パイプラインアラート

パイプラインの実行が完了した後にアラートを送信し、後処理タスクを開始するようにパイプラインを構成できます。パイプラインアラートは、パイプラインを設計するときに作成します。パイプラインをデプロイすると、アラートを表示できます。パイプラインを編集して、アラート設定を変更できます。詳細については、アラートを作成するをご覧ください。

変換プッシュダウン

パイプラインで BigQuery で特定の変換を実行する場合は、変換プッシュダウンを有効にできます。詳細については、変換のプッシュダウンの概要をご覧ください。

次のステップ

Cloud Data Fusion でのパイプラインログの表示とダウンロードの詳細を確認する。