変換のプッシュダウンの概要

データパイプラインのパフォーマンスを改善するには、一部の変換オペレーションを Apache Spark ではなく BigQuery に push します。変換のプッシュダウンとは、Cloud Data Fusion データパイプラインのオペレーションを実行エンジンとして BigQuery に push できるようにする設定を指します。その結果、オペレーションとそのデータが BigQuery に転送され、そこでオペレーションが実行されます。

変換のプッシュダウンを使用すると、複数の複雑な JOIN オペレーションやその他のサポートされている変換を含むパイプラインのパフォーマンスが向上します。BigQuery で一部の変換を実行すると、Spark で実行するよりも高速になる場合があります。

サポートされていない変換とすべてのプレビュー変換は Spark で実行されます。

サポートされている変換

変換のプッシュダウンは Cloud Data Fusion バージョン 6.5.0 以降で使用できますが、次の変換の一部は新しいバージョンでのみサポートされています。

`JOIN` オペレーション

変換のプッシュダウンは、Cloud Data Fusion バージョン 6.5.0 以降の JOIN オペレーションで使用できます。
基本（キーオン）オペレーションと高度な JOIN オペレーションがサポートされています。
BigQuery で実行するには、結合で 2 つの入力ステージが必要です。
以下の場合を除いて、1 つ以上の入力をメモリに読み込むように構成された結合は、BigQuery ではなく Spark で実行されます。
- 結合への入力のいずれかがすでにプッシュダウンされている場合。
- 結合を SQL Engine で実行するように構成した場合（強制実行のステージオプションを参照）。

BigQuery シンク:

変換のプッシュダウンは、Cloud Data Fusion バージョン 6.7.0 以降の BigQuery シンクで使用できます。

BigQuery シンクが BigQuery で実行されたステージに従うと、BigQuery にレコードを書き込むオペレーションが BigQuery で直接実行されます。

このシンクのパフォーマンスを向上させるには、次のものが必要です。

サービスアカウントには、BigQuery シンクで使用されるデータセット内のテーブルを作成および更新する権限が必要です。
変換のプッシュダウン使用するデータセットと BigQuery シンクは、同じロケーションに保存する必要があります。
オペレーションは次のいずれかにする必要があります。
- Insert（Truncate Table オプションはサポートされていません）
- Update
- Upsert

`GROUP BY` 集計

変換のプッシュダウンは、Cloud Data Fusion バージョン 6.7.0 以降の GROUP BY 集計で使用できます。

BigQuery の GROUP BY 集計は、次のオペレーションに使用できます。

Avg
Collect List（null 値は出力配列から削除されます）
Collect Set（null 値は出力配列から削除されます）
Concat
Concat Distinct
Count
Count Distinct
Count Nulls
Logical And
Logical Or
Max
Min
Standard Deviation
Sum
Sum of Squares
Corrected Sum of Squares
Variance
Shortest String
Longest String

GROUP BY 集計は、次の場合に BigQuery で実行されます。

すでにプッシュダウンされたステージに従います。
SQL Engine で実行するように構成した（強制実行のステージオプションを参照）。

重複除去の集計

変換のプッシュダウンは、以下のオペレーションのために、Cloud Data Fusion バージョン 6.7.0 以降での重複除去の集計に使用できます。

フィルタオペレーションが指定されていない
ANY（目的のフィールドの null 以外の値）
MIN（指定したフィールドの最小値）
MAX（指定したフィールドの最大値）

次のオペレーションはサポートされていません。

FIRST
LAST

重複除去の集計は、次の場合に SQL エンジンで実行されます。

すでにプッシュダウンされたステージに従います。
SQL Engine で実行するように構成した（強制実行のステージオプションを参照）。

BigQuery ソースのプッシュダウン

BigQuery Source Pushdown は Cloud Data Fusion バージョン 6.8.0 以降で使用できます。

BigQuery ソースが BigQuery のプッシュダウンと互換性のあるステージに従う場合、パイプラインは BigQuery 内の互換性のあるすべてのステージを実行できます。

Cloud Data Fusion は、BigQuery 内でパイプラインを実行するために必要なレコードをコピーします。

BigQuery Source Pushdown を使用する場合、テーブルのパーティショニングとクラスタリングのプロパティが保持されるので、これらのプロパティを使用して結合などの以降のオペレーションを最適化できます。

その他の要件

BigQuery Source Pushdown を使用するには、次の要件を満たす必要があります。

BigQuery 変換のプッシュ通知用に構成されたサービスアカウントには、BigQuery ソースのデータセット内のテーブルを読み取る権限が必要です。
BigQuery ソースで使用されるデータセットと、変換のプッシュダウン用に構成されたデータセットは、同じロケーションに保存する必要があります。

ウィンドウ集計

変換のプッシュダウンは、Cloud Data Fusion バージョン 6.9 以降のウィンドウ集計で使用できます。BigQuery のウィンドウ集計は、次のオペレーションでサポートされています。

Rank
Dense Rank
Percent Rank
N tile
Row Number
Median
Continuous Percentile
Lead
Lag
First
Last
Cumulative distribution
Accumulate

ウィンドウ集計は、次の場合に BigQuery で実行されます。

すでにプッシュダウンされたステージに従います。
SQL Engine で実行するように構成した（強制プッシュダウンのステージオプションを参照）。

Wrangler フィルタのプッシュダウン

Wrangler フィルタのプッシュダウンは、Cloud Data Fusion バージョン 6.9 以降で使用できます。

Wrangler プラグインを使用すると、フィルタを push して（Precondition オペレーション）、Spark ではなく BigQuery で実行できます。

フィルタのプッシュダウンは、これもバージョン 6.9 でリリースされた前提条件の SQL モードでのみサポートされています。このモードでは、プラグインが ANSI 標準 SQL の前提条件式を受け入れます。

前提条件に SQL モードを使用すると、Wrangler プラグインでディレクティブとユーザー定義のディレクティブが無効になります。これは、SQL モードの前提条件では、それらがサポートされていないためです。

変換のプッシュダウンが有効になっている場合、前提条件の SQL モードは、複数の入力がある Wrangler プラグインでサポートされません。複数の入力で使用する場合、この Wrangler ステージと SQL フィルタ条件は Spark で実行されます。

フィルタは、次の場合に BigQuery で実行されます。

すでにプッシュダウンされたステージに従います。
SQL Engine で実行するように構成した（強制プッシュダウンのステージオプションを参照）。

指標

BigQuery で実行されるパイプラインの部分に Cloud Data Fusion から提供される指標の詳細については、BigQuery プッシュダウンパイプラインの指標をご覧ください。

変換のプッシュダウンを使用するタイミング

BigQuery で変換を実行するには、次の手順に従います。

パイプラインでサポートされているステージのレコードを BigQuery に書き込む。
BigQuery でサポートされるステージを実行する。
サポートされている変換が実行された後、BigQuery からレコードを読み取る（BigQuery シンクが続く場合を除く）。

データセットのサイズによっては、ネットワークのオーバーヘッドがかなり大きくなる可能性があります。これは、変換のプッシュダウンが有効な場合、パイプラインの実行時間全体に悪影響を与える可能性があります。

ネットワークオーバーヘッドのため、次のような場合は変換のプッシュダウンをおすすめします。

サポートされている複数のオペレーションが順番に実行れる（ステージ間にステップがない）。
BigQuery に変換の実行に関して得られるパフォーマンスが、Spark と比較して、BigQuery との間のデータレイテンシおよび場合によっては BigQuery から生じるレイテンシを上回る。

仕組み

変換のプッシュダウンを使用するパイプラインを実行すると、Cloud Data Fusion は BigQuery でサポートされている変換ステージを実行します。パイプラインのその他のステージはすべて Spark で実行されます。

変換を実行する場合:

Cloud Data Fusion は、Cloud Storage にレコードを書き込み、BigQuery 読み込みジョブを実行して、入力データセットを BigQuery に読み込みます。
JOIN オペレーションとサポートされている変換は、SQL ステートメントを使用して BigQuery ジョブとして実行されます。
ジョブの実行後にさらに処理が必要な場合は、レコードを BigQuery から Spark にエクスポートできます。ただし、BigQuery シンクに直接コピーを試行オプションが有効で、BigQuery シンクが BigQuery で実行されたステージに従うと、レコードがエクスポート先の BigQuery シンクテーブルに直接書き込まれます。

次の図は、変換のプッシュダウンによって、Spark の代わりに BigQuery でサポートされる変換がどのように実行されるかを示しています。

Cloud Data Fusion パイプラインでの BigQuery への変換のプッシュダウン。

次のステップ

Cloud Data Fusion で変換のプッシュダウンを有効にする方法を学習する。

変換のプッシュダウンの概要

サポートされている変換

`JOIN` オペレーション

BigQuery シンク:

`GROUP BY` 集計

重複除去の集計

BigQuery ソースのプッシュダウン

その他の要件

ウィンドウ集計

Wrangler フィルタのプッシュダウン

指標

変換のプッシュダウンを使用するタイミング

仕組み

おすすめの方法

クラスタとエグゼキュータのサイズを調整する

BigQuery Storage Read API を使用してデータを迅速に取得する

データセットのサイズを検討する

偏りのあるデータを軽減する

次のステップ

変換のプッシュダウンの概要

サポートされている変換

JOIN オペレーション

BigQuery シンク:

GROUP BY 集計

重複除去の集計

BigQuery ソースのプッシュダウン

その他の要件

ウィンドウ集計

Wrangler フィルタのプッシュダウン

指標

変換のプッシュダウンを使用するタイミング

仕組み

おすすめの方法

クラスタとエグゼキュータのサイズを調整する

BigQuery Storage Read API を使用してデータを迅速に取得する

データセットのサイズを検討する

偏りのあるデータを軽減する

次のステップ

`JOIN` オペレーション

`GROUP BY` 集計