このページでは、デプロイされたパイプラインの構成を管理する方法について説明します。
始める前に
このページでは、コンピューティング プロファイルとパイプラインのパフォーマンスに関する背景知識が必要です。
コンピューティング プロファイルの構成
コンピューティング プロファイルを変更するか、パイプラインを実行するデフォルトのコンピューティング プロファイルのパラメータをカスタマイズできます。詳細については、コンピューティング プロファイルを管理すると Dataproc プロビジョナーのプロパティをご覧ください。
パイプライン構成
パイプラインごとに、タイミング指標などの計測を有効または無効にできます。デフォルトでは、計測はオンになっています。計測が有効になっている場合、パイプラインを実行すると、Cloud Data Fusion は各パイプライン ノードの指標を生成します。次の指標は、各ノードの [指標] タブに表示されます。ソース、変換、シンクの指標は若干異なります。
- 送信レコード
- 受信レコード
- エラーの合計数。
- 1 秒あたりの送信レコード
- Min process time (one record)
- Max process time (one record)
- 標準偏差
- Average processing time
環境のリソースが不足している場合を除き、常に計測を有効にすることをおすすめします。
ストリーミング パイプラインの場合は、ストリーミング データのバッチ間隔(秒単位または分単位)を設定することもできます。
エンジンの設定
Apache Spark がデフォルトの実行エンジンです。Spark のカスタム パラメータを渡すことができます。詳細については、並列処理をご覧ください。
リソース
Spark ドライバとエグゼキュータのメモリと CPU 数を指定できます。ドライバは Spark ジョブをオーケストレートします。エグゼキュータは、Spark でのデータ処理を処理します。詳細については、リソース管理をご覧ください。
パイプライン アラート
パイプラインの実行が完了した後にアラートを送信し、後処理タスクを開始するようにパイプラインを構成できます。パイプライン アラートは、パイプラインを設計するときに作成します。パイプラインをデプロイすると、アラートを表示できます。パイプラインを編集して、アラート設定を変更できます。詳細については、アラートを作成するをご覧ください。
変換プッシュダウン
パイプラインで BigQuery で特定の変換を実行する場合は、変換プッシュダウンを有効にできます。詳細については、変換のプッシュダウンの概要をご覧ください。