Pub/Sub を使用したストリーミング

このページでは、Dataflow と Pub/Sub の統合の概要について説明します。また、Dataflow ランナーで Pub/Sub I/O コネクタを実装する際に利用できる最適化についても説明します。Pub/Sub は、スケーラブルで耐久性のあるイベントの取り込みおよび配信システムです。Dataflow は、メッセージの重複排除、1 回限りの処理、タイムスタンプ付きイベントからのデータウォーターマークの生成により、Pub/Sub のスケーラブルな「最低 1 回」配信モデルを補完します。Dataflow を使用するには、Apache Beam SDK でパイプラインを記述し、Dataflow サービスでパイプラインコードを実行します。

開始する前に、Apache Beam とストリーミングパイプラインの基本的なコンセプトをご確認ください。詳細については、次のリソースをご覧ください。

PCollection、トリガー、ウィンドウ、ウォーターマークなどの Apache Beam のコンセプトの概要
ラムダ以降: Dataflow における「1 回限り」の処理のパート 1 とパート 3: ソースとシンク
ストリーミング: バッチを超えた世界 101、102
Apache Beam プログラミングガイド

事前警告: 複数のパイプラインに対して 1 つの Pub/Sub サブスクリプションを使用しないでください。1 つのサブスクリプションのデータは、そのデータを消費するエンティティによって非決定論的に分割されます。したがって、1 つのサブスクリプションを読み取る 2 つのパイプラインがある場合、各パイプラインはデータの一部を非決定論的な方法で受け取ることになります。それにより、メッセージの重複、ウォーターマークのラグ、効率の悪い自動スケーリングが発生する可能性があります。パイプラインごとに別のサブスクリプションを作成してください。また、Pub/Sub トピックから読み取る場合は、パイプラインごとに個別のサブスクリプションが自動的に作成されます。

Pub/Sub を使用したストリーミングパイプラインの構築

Dataflow と Pub/Sub の統合の利点を活用するには、次のいずれかの方法でストリーミングパイプラインを構築します。

ストリーミング単語抽出（Java）、ストリーミング単語数カウント（Python）、streaming_wordcap（Go）など、Apache Beam GitHub リポジトリにある既存のストリーミングパイプラインのサンプルコードを使用します。
Apache Beam API リファレンス（Java、Python、Go）を使用して、新しいパイプラインを記述します。
Google が提供する Dataflow テンプレートと、それに対応する Java のテンプレートソースコードを使用します。

Google は、UI ベースで Pub/Sub ストリーム処理パイプラインを開始するための Dataflow テンプレートを提供しています。Java を使用する場合は、こうしたテンプレートのソースコードを使用して、カスタムパイプラインを作成することもできます。

次のストリーミングテンプレートは、Pub/Sub データを別の宛先にエクスポートします。
次のバッチテンプレートは、Pub/Sub トピックにデータのストリームをインポートします。
- Cloud Storage Text to Pub/Sub (Batch)
Pub/Sub のクイックスタート: Dataflow によるストリーム処理に従って、単純なパイプラインを実行します。

Pub/Sub と Dataflow のインテグレーション機能

Apache Beam は、Pub/Sub 用のリファレンス I/O ソースの実装（PubsubIO）が用意されています（Java、Python、Go）。この I/O ソースの実装は、Dataflow 以外のランナー（Apache Spark ランナー、Apache Flink ランナー、Direct Runner など）によって使用されます。

Dataflow ランナーは、PubsubIO（Java、Python、Go 向け）の異なるプライベート実装を使用します。この実装では、Google Cloud 内部の API とサービスを利用しています。これには、低レイテンシのウォーターマーク、高精度のウォーターマーク（データ完全性）、効率的な重複排除（1 回限りのメッセージ処理）、という 3 つの主要なメリットがあります。

Apache Beam I/O コネクタを使用すると、制御されたソースとシンクを使用して Dataflow を操作できます。Dataflow ランナーの PubsubIO の実装により、メッセージは最初の融合ステージで正常に処理され、その処理の副作用が永続ストレージに書き込まれると、自動的に確認応答が行われます。詳細については、融合のドキュメントをご覧ください。したがって、一部のコンポーネントがクラッシュした場合や接続が失われた場合で、Dataflow によってデータの損失がないことが保証される場合にのみ、メッセージが確認応答されます。

低レイテンシのウォーターマーク

Dataflow は Pub/Sub のプライベート API にアクセスできます。これにより、Cloud Monitoring で使用可能なレイテンシよりも低いレイテンシで、サブスクリプション内の最も古い未承認メッセージの経過時間を得ることができます。比較のため、Cloud Monitoring で使用可能な Pub/Sub バックログ指標は通常 2～3 分の遅延が発生しますが、Dataflow の指標は 10 秒程度しか遅れません。これにより、Dataflow はパイプラインウォーターマークを先に進めて、ウィンドウ処理された計算結果をより早く出力できます。

高精度のウォーターマーク

イベント時刻で定義されたウィンドウには強力なウォーターマークが必要になるという問題がありますが、この問題も Dataflow と Pub/Sub の統合によってネイティブに解決されます。イベント時間は、Pub/Sub サービス自身によってメッセージに設定された publish_time フィールドではなく、パブリッシャーアプリケーションによって Pub/Sub メッセージの属性として指定されたタイムスタンプです。Pub/Sub では、サービスによって割り当てられた（処理時刻の）タイムスタンプに関してのみバックログ統計が計算されるため、イベント時刻のウォーターマークを推測するには別のメカニズムが必要です。

この問題を解決するため、ユーザーがカスタムのイベントタイムスタンプを使用する場合、Dataflow サービスは第 2 のトラッキングサブスクリプションを作成します。このトラッキングサブスクリプションを使用して、ベースとなるサブスクリプションのバックログ内にあるメッセージのイベント時刻を検査し、イベント時刻のバックログを推測します。詳しくは、StackOverflow の Dataflow で Pub/Sub ウォーターマークを計算する方法に関するページをご覧ください。

効率的な重複排除

「1 回限り」のメッセージ処理を行うにはメッセージの重複排除が必要になります。また、Apache Beam プログラミングモデルを使用して、Pub/Sub メッセージストリームを 1 回だけ処理できます。Dataflow は、Pub/Sub メッセージ ID に基づいてメッセージの重複排除を行います。その結果、すべての処理ロジックにおいて、Pub/Sub メッセージ ID に基づいてメッセージが一意になっていると想定できます。これを達成するための効率的な増分集約メカニズムは、PubsubIO API の中で抽象化されています。

重複排除にメッセージ ID ではなく Pub/Sub メッセージ属性を使用するように PubsubIO が構成されている場合、Dataflow は Pub/Sub に公開されたメッセージ間の重複を 10 分以内に排除します。

サポートされていない Pub/Sub 機能

次の Pub/Sub 機能は、Dataflow ランナーの Pub/Sub I/O コネクタの実装ではサポートされていません。

デッドレタートピックと指数バックオフ遅延の再試行ポリシー

Pub/Sub のデッドレタートピックと指数バックオフ遅延の再試行ポリシーは、Dataflow では完全にサポートされていません。代わりに、これらのパターンをパイプライン内で明示的に実装してください。デッドレターパターンの 2 つの例として、小売アプリケーションと Pub/Sub to BigQuery テンプレートをご覧ください。

デッドレタートピックと指数バックオフ遅延の再試行ポリシーが Dataflow で機能しない理由は 2 つあります。

まず、Dataflow は、パイプラインコードに失敗しても、Pub/Sub に NACK メッセージを送信しません（つまり、否定確認応答を送信しません）。代わりに、Dataflow はメッセージの処理を無期限に再試行し、メッセージの確認応答期限を延長します。ただし、Dataflow バックエンドはさまざまな内部理由でメッセージに NACK で応答するため、パイプラインコードに障害がない場合でも、デッドレタートピックにメッセージが配信される可能性があります。

次に、Dataflow は、パイプラインがデータを完全に処理する前にメッセージを確認します。具体的には、メッセージが最初の融合ステージで正常に処理されると（かつ、その処理の副作用が永続ストレージに書き込まれると）、メッセージに確認応答が行われます。パイプラインに複数の融合ステージがあり、最初のステージの後のいずれかの時点で障害が発生した場合、メッセージはすでに確認応答されています。

exactly-once の Pub/Sub 配信

Dataflow には独自の exactly-once 処理があるため、Dataflow で Pub/Sub の exactly-once 配信を使用することはおすすめしません。Pub/Sub の 1 回限りの配信を有効にすると、並列処理に使用できるメッセージが制限されるため、パイプラインのパフォーマンスが低下します。

Pub/Sub メッセージの順序指定

Pub/Sub メッセージの順序指定が有効になっている場合、Dataflow はメッセージを並べ替える可能性があります。パイプラインは実行されますが、メッセージは Dataflow が受信した順序で届くとは限りません。ただし、Dataflow で Pub/Sub を使用する場合、メッセージの順序指定を有効にすると、レイテンシが増加して、パフォーマンスが低下する可能性があります。

次のステップ

Pub/Sub と Dataflow を使用したストリーム処理: クイックスタート（セルフペースラボ）
Pub/Sub から BigQuery へのストリーミング