Pub/Sub から Dataflow に読み取る

このページでは、Dataflow で Pub/Sub から読み取る際のベストプラクティスについて説明します。

Apache Beam には、Dataflow 以外のランナーによって使用される Pub/Sub I/O コネクタのリファレンス実装が用意されています。ただし、Dataflow ランナーはコネクタ独自のカスタム実装を使用します。この実装では、 Google Cloud内部の API とサービスを利用し、低レイテンシのウォーターマーク、高精度のウォーターマーク、効率的な重複除去（exactly-once メッセージ処理）を提供しています。このコネクタは、Java、Python、Go で利用できます。

exactly-once 処理

Pub/Sub は、イベントコンシューマーからイベントパブリッシャーを切り離します。アプリケーションはトピックにメッセージを公開し、Pub/Sub はそのメッセージをサブスクライバーに非同期に配信します。

Pub/Sub は、トピックに正常に公開された各メッセージに一意のメッセージ ID を割り当てます。デフォルトでは、Pub/Sub は at-least-once メッセージ配信を実行します。at-least-once セマンティクスを実現するために、Pub/Sub は期限までにサブスクライバーから確認応答がない場合、メッセージ配信を再試行します。再試行は、確認応答期限の前、またはメッセージが確認応答された後に行われることもあります。

メッセージが最初の融合ステージで正常に処理され、その処理の副作用が永続ストレージに書き込まれると、Dataflow はメッセージの確認応答を行います。重複メッセージの数を減らすため、Dataflow はこのステージでメッセージのバッチが処理されている間、確認応答期限を延長し続けます。

Pub/Sub はメッセージを再配信する可能性があるため、重複するメッセージがパイプラインに届く可能性があります。Dataflow パイプラインで正確に 1 回のストリーミングモードを使用している場合、Dataflow はこれらのメッセージの重複除去を行って、正確に 1 回のセマンティクスを実現します。

パイプラインが重複レコードを許容できる場合は、代わりに at-least-once ストリーミングモードの使用を検討してください。このモードでは、レイテンシとパイプラインの総コストを大幅に削減できます。トレードオフとして、重複メッセージが 2 回処理されることがあります。詳細については、使用するストリーミングモードを選択するをご覧ください。

メッセージ属性による重複除去

デフォルトでは、Dataflow はメッセージ ID に基づいて重複除去を行います。ただし、アプリケーションは 2 つの異なる Pub/Sub メッセージとして同じレコードを 2 回送信する場合があります。たとえば、元のソースデータに重複したレコードが含まれていたり、アプリケーションが間違って同じメッセージを 2 回公開したりすることがあります。後者は、ネットワークの問題やその他の中断が原因で確認応答がドロップされた場合、再試行によって発生することがあります。このような場合、重複メッセージのメッセージ ID は異なります。

シナリオによっては、重複除去に使用できる一意のフィールドがデータに含まれていることがあります。たとえば、レコードに一意のトランザクション ID が含まれていることがあります。Pub/Sub メッセージ ID を使用するのではなく、メッセージ属性の値に基づいてメッセージを重複除去するように Pub/Sub I/O コネクタを設定できます。パブリッシャーが再試行時にこの属性を常に設定している限り、Dataflow は重複を検出できます。重複除去を行う場合、相互に 10 分以内にメッセージを Pub/Sub に公開する必要があります。

ID 属性の使用の詳細については、次の SDK リファレンストピックをご覧ください。

withIdAttribute（Java）
ReadFromPubSub（Python）
ReadOptions（Go）

サブスクリプション

パイプラインを構成するときに、Pub/Sub トピックまたは Pub/Sub サブスクリプションのいずれかを読み取り元に指定します。サブスクリプションを指定する場合は、複数のパイプラインに同じ Pub/Sub サブスクリプションを使用しないでください。2 つのパイプラインが 1 つのサブスクリプションから読み取る場合、各パイプラインは非決定論的な方法でデータの一部を受け取ります。これにより、メッセージの重複、ウォーターマークのラグ、非効率な自動スケーリングが生じる可能性があります。パイプラインごとに異なるサブスクリプションを作成してください。

トピックを指定すると、コネクタが一時的なサブスクリプションを新規作成します。このサブスクリプションは、パイプラインごとに一意です。

タイムスタンプとウォーターマーク

すべての Pub/Sub メッセージには、Pub/Sub がメッセージを受信した時刻を表すタイムスタンプがあります。データにも、ソースによってレコードが生成された時刻を示すイベントタイムスタンプがあります。

Pub/Sub メッセージの属性からイベントタイムスタンプを読み取るようにコネクタを設定できます。その場合、コネクタはイベントタイムスタンプをウォーターマークに使用します。それ以外の場合は、デフォルトで Pub/Sub メッセージのタイムスタンプを使用します。

イベントタイムスタンプの使用の詳細については、次の SDK リファレンストピックをご覧ください。

Pub/Sub コネクタは Pub/Sub のプライベート API にアクセスできます。これにより、サブスクリプション内の確認応答されていない最も古いメッセージの経過時間がわかります。この API は、Cloud Monitoring よりも低レイテンシです。これにより、Dataflow はパイプラインウォーターマークを先に進めて、ウィンドウ処理された計算結果を低レイテンシで出力できます。

イベントタイムスタンプを使用するようにコネクタを設定すると、Dataflow は 2 番目の Pub/Sub サブスクリプション（トラッキングサブスクリプション）を作成します。Dataflow はそのトラッキングサブスクリプションを使用して、バックログに残っているメッセージのイベント時刻を調べます。このアプローチにより、Dataflow はイベント時間のバックログを正確に推定できます。ワーカーサービスアカウントには、追跡サブスクリプションを含むプロジェクトに対する次の権限が少なくとも必要です。

pubsub.subscriptions.create
pubsub.subscription.consume
pubsub.subscription.delete

また、Pub/Sub トピックに対する pubsub.topics.attachSubscription 権限も必要です。これらの権限のみを含むカスタムの Identity and Access Management ロールを作成することをおすすめします。

ウォーターマークの詳細については、StackOverflow の Dataflow で Pub/Sub ウォーターマークを計算する方法に関するページをご覧ください。

パイプラインに複数の Pub/Sub ソースがあり、そのうちの 1 つのボリュームが非常に少ないか、アイドル状態の場合、ウォーターマーク全体の進行が遅延し、パイプライン全体のレイテンシが増加します。ウォーターマークに基づくタイマーまたはウィンドウ集約がパイプラインにある場合、それらにも遅延が生じます。

Pub/Sub シーク

Pub/Sub シークを使用すると、確認済みのメッセージを再生できます。Dataflow で Pub/Sub シークを使用すると、パイプライン内のメッセージを再処理できます。

ただし、実行中のパイプラインで Pub/Sub シークを使用することはおすすめしません。実行中のパイプラインで後方にシークすると、メッセージが重複する、またはドロップされる場合があります。また、Dataflow のウォーターマークロジックを無効にし、処理済みデータを組み込んだパイプラインの状態と競合します。

Pub/Sub シークを使用してメッセージを再処理するには、次のワークフローをおすすめします。

サブスクリプションのスナップショットを作成します。
Pub/Sub トピック用の新しいサブスクリプションを作成します。新しいサブスクリプションはスナップショットを継承します。
現在の Dataflow ジョブをドレインまたはキャンセルします。
新しいサブスクリプションを使用してパイプラインを再送信します。

詳細については、Pub/Sub スナップショットとシークを使用したメッセージの再処理をご覧ください。

サポートされていない Pub/Sub 機能

次の Pub/Sub 機能は、Dataflow ランナーの Pub/Sub I/O コネクタの実装ではサポートされていません。

指数バックオフ

Pub/Sub サブスクリプションを作成するときに、指数バックオフの再試行ポリシーを使用するように設定できます。ただし、指数バックオフは Dataflow では機能しません。代わりに、すぐに再試行の再試行ポリシーを使用してサブスクリプションを作成します。

指数バックオフは、否定確認応答が行われたときや確認応答期限が過ぎたときにトリガーされます。ただし、Dataflow は、パイプラインコードが失敗した場合は否定確認応答を送信しません。代わりに、メッセージの処理を無期限に再試行し、メッセージの確認応答期限を延長します。

デッドレタートピック

次の理由から、Dataflow で Pub/Sub デッドレタートピックを使用しないでください。

Dataflow は、さまざまな内部的理由（ワーカーがシャットダウンしている場合など）で否定確認応答を送信します。その結果、パイプラインコードで障害が発生していない場合でも、デッドレタートピックにメッセージが配信されることがあります。
Dataflow は、メッセージのバンドルが最初の融合ステージで正常に処理された後に、メッセージの確認応答を行います。パイプラインに複数の融合ステージがあり、最初のステージ以降のいずれかの時点で障害が発生した場合、メッセージはすでに確認応答されており、デッドレタートピックに配信されません。

代わりに、パイプラインにデッドレターパターンを明示的に実装し、失敗したメッセージを後で処理する宛先にルーティングします。一部の I/O シンクには、デッドレターキューが標準でサポートされています。次の例は、デッドレターパターンを実装しています。

exactly-once の Pub/Sub 配信

Dataflow には exactly-once 処理に関する独自のメカニズムがあるため、Dataflow で exactly-once の Pub/Sub 配信を使用することはおすすめしません。exactly-once の Pub/Sub 配信を有効にすると、並行処理できるメッセージの数が制限されるため、パイプラインのパフォーマンスが低下します。

Pub/Sub メッセージの順序指定

メッセージの順序指定は Pub/Sub の機能です。この機能により、サブスクライバーは公開された順にメッセージを受信できます。

次の理由から、Dataflow でメッセージの順序指定を使用することはおすすめしません。

Pub/Sub I/O コネクタでは、メッセージの順序指定が保持されないことがあります。
Apache Beam では、要素の処理順序に関する厳密なガイドラインが定義されていません。そのため、ダウンストリーム変換で順序指定が保持されないことがあります。
Dataflow で Pub/Sub メッセージの順序指定を使用すると、レイテンシが増加し、パフォーマンスが低下する可能性があります。

Pub/Sub での単一メッセージ変換

単一メッセージ変換（SMT）を使用すると、システムをストリーミングするメッセージの属性またはデータに基づいて、メッセージを操作、検証、フィルタできます。Dataflow にフィードするサブスクリプションでは、メッセージをフィルタする SMT を使用しないでください。自動スケーリングに影響する可能性があるためです。これは、サブスクリプションでの SMT フィルタリングによって、フィルタされたメッセージが SMT によって処理されるまで、バックログが Dataflow に実際に渡されるメッセージ数よりも大きく見えるために起こります。メッセージをフィルタするトピック SMT は、自動スケーリングに影響しません。

次のステップ

Pub/Sub と Dataflow を使用したストリーム処理: クイックスタート（セルフペースラボ）
Pub/Sub から BigQuery へのストリーミング
Dataflow を使用して Pub/Sub からメッセージをストリーミングする
ストリーミングパイプライン
Dataflow での exactly-once 処理
Pub/Sub から BigQuery への書き込みのベストプラクティス
ラムダ以降: Dataflow での exactly-once 処理のパート 1 とパート 3: ソースとシンク（ブログ）