Pub/Sub Lite と Dataproc

Pub/Sub Lite は、Pub/Sub と比較して低コストで信頼性は低く構築された、リアルタイムのメッセージング サービスです。Pub/Sub Lite には、ストレージ用のゾーントピックとリージョン トピックが用意されています。

Pub/Sub Lite Spark コネクタは、デフォルトのマイクロバッチ処理モードおよび試験運用版の継続処理モードで Apache Spark Structured Streaming への入力ソースとして Pub/Sub Lite をサポートします。

Dataproc での Pub/Sub Lite の使用

Java

GitHub の java-pubsublite-spark リポジトリsamples ディレクトリには、Dataproc を使用した Pub/Sub Lite を使用する Java による Spark のサンプルが含まれています。これを実行するには、Spark サンプル内の指示に従います。

  1. まず、java-pubsublite-spark GitHub リポジトリのクローンを作成します。
    git clone https://github.com/googleapis/java-pubsublite-spark
    cd java-pubsublite-spark/samples
    

Python / Scala

コネクタは、Maven Central リポジトリから入手できます。--packages オプションを指定するか、spark.jars.packages 構成プロパティを設定して、spark-submit コマンドでダウンロードできます。

詳細情報

  • Apache Spark での Pub/Sub Lite の使用をご覧ください。Dataproc クラスタで Python スクリプトを実行して、Pub/Sub Lite との間でデータを読み書きするクイックスタートです。
  • こちらで Pub/Sub Lite Spark コネクタのバージョンを選択し、リンク先のページで JAR をダウンロードします。