Cloud Dataflow SQL の概要

Cloud Dataflow SQL では、SQL クエリを使用して、BigQuery ウェブ UI から Cloud Dataflow ジョブを開発して実行できます。Cloud Dataflow SQL は Apache Beam SQL と統合され、ZetaSQL クエリ構文のバリアントがサポートされます。ZetaSQL のストリーミング拡張機能を使用して、ストリーミング データの並列処理パイプラインを定義できます。

  • 既存の SQL スキルを使用して、BigQuery ウェブ UI からストリーミング パイプラインを開発して実行する。SDK 開発環境を設定する必要や、Java または Python でプログラミングを行う方法を知る必要はありません。
  • スナップショットが作成されたデータセット(BigQuery テーブルなど)でストリーム(Cloud Pub/Sub など)を結合する。
  • スキーマをオブジェクト(テーブル、ファイル、Cloud Pub/Sub トピックなど)と関連付けることによって、SQL でストリームや静的データセットのクエリを行う
  • 分析やダッシュボード表示のために結果を BigQuery テーブルに書き込む。

サポートされるリージョン

Cloud Dataflow SQL では、Cloud Dataflow リージョン エンドポイントがあるリージョンでジョブを実行できます。

制限事項

現在のバージョンの Cloud Dataflow SQL には、次の制限があります。

  • Cloud Dataflow SQL では、BigQuery の標準 SQL のサブセットのみがサポートされます。詳細については、Cloud Dataflow SQL のリファレンスをご覧ください。
  • Cloud Dataflow SQL では、ウォーターマークがウィンドウの完了を示す場合、ウィンドウのグループごとに 1 つの集計出力があります。 遅延したデータは破棄されます。
  • Cloud Dataflow SQL のタイムスタンプの精度は、ミリ秒です。
    • BigQuery の TIMESTAMP フィールドのタイムスタンプの精度は、最大でミリ秒である必要があります。TIMESTAMP フィールドの精度がサブミリ秒の場合、Cloud Dataflow SQL は IllegalArgumentException をスローします。
    • Cloud Pub/Sub のパブリッシュ タイムスタンプはミリ秒に切り捨てられます。
  • ソース: 読み取りは Cloud Pub/Sub トピックおよび BigQuery テーブルに制限されます。
  • Cloud Dataflow SQL では、Cloud Pub/Sub トピック内のメッセージが JSON 形式でシリアル化されると想定しています。将来、他の形式(Avro)のサポートが追加されます。
  • 宛先: 書き込みは BigQuery テーブルに制限されます。
  • Cloud Dataflow リージョン エンドポイントがあるリージョンでのみジョブを実行できます。
  • Cloud Dataflow ではリソースの自動スケーリングを使用し、ジョブの実行モード(バッチ処理またはストリーミング処理)を選択します。この動作を制御するパラメータはありません。
  • Cloud Dataflow ジョブの作成には数分かかることがあります。パイプラインの実行中にエラーが発生した場合は、ジョブが失敗します。
  • BigQuery は、BigQuery テーブルにストリーミングするデータをバッファに保存します。そのため、プレビュー パネルでのデータの表示が遅延します。ただし、通常の SQL コマンドを使用してテーブルに対してクエリを実行できます。
  • Drain コマンドでのパイプラインの停止はサポートされません。パイプラインを停止するには、Cancel コマンドを使用します。
  • 実行中のパイプラインの更新はサポートされません。
  • 実行中のジョブ(ストリーミングまたはバッチ)と正常に完了したバッチジョブからのみ以前の SQL クエリを編集できます。

割り当て

Cloud Dataflow の割り当てと制限の詳細については、割り当てと上限をご覧ください。

料金

Cloud Dataflow SQL では標準の Cloud Dataflow 料金を使用します。別の料金体系はありません。SQL ステートメントに基づいて作成した Cloud Dataflow ジョブで使用されるリソースは課金対象となります。こうしたリソースに対する請求は、vCPU、メモリ、永続ディスクに対する標準の Cloud Dataflow 料金です。さらに、ジョブで Cloud Pub/Sub や BigQuery などの追加リソースが使用される可能性があり、それぞれ固有の料金で課金されます。

Cloud Dataflow の料金設定の詳細については、Cloud Dataflow の料金のページをご覧ください。

次のステップ

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。