リリースノート: Cloud Dataflow サービス

このページには、Cloud Dataflow サービスの更新内容が記載されています。このページを定期的にチェックして、新機能や更新された機能、バグ修正、既知の問題、非推奨になった機能に関するお知らせを確認してください。

プロダクトのアップデートに関する最新情報を受け取るには、このページの URL をフィード リーダーに追加してください。

2018 年 4 月 18 日

Cloud Dataflow が asia-northeast2 リージョン(日本、大阪)で使用できるようになりました。

2019 年 4 月 10 日

Cloud Dataflow Streaming Engine が一般提供になりました。このサービスは次の 2 つのリージョンでも利用可能です。

  • asia-northeast1(東京)
  • europe-west4(オランダ)

Streaming Engine には Apache Beam SDK for Java バージョン 2.10.0 以降が必要です。

Cloud Dataflow Shuffle が次の 2 つのリージョンでも使用可能になりました。

  • asia-northeast1(東京)
  • europe-west4(オランダ)

Cloud Dataflow は、us-central1 および europe-west1 リージョンFlexible Resource Scheduling(FlexRS)ベータ版のサポートを提供します。

2019 年 4 月 8 日

Apache Beam SDK for Python は次のリージョンでのみ BigQuery リソースを使用できます。

  • リージョンのロケーション: us-west2us-east4europe-north1europe-west2europe-west6
  • マルチリージョンのロケーション: EUUS
この問題を回避するには、上記のサポートされているリージョンのいずれかをデータセットとして選択してください。

Cloud Dataflow は、us-central1 および europe-west1 リージョンFlexible Resource Scheduling(FlexRS)ベータ版のサポートを提供します。

2019 年 4 月 1 日

Cloud Dataflow は VPC Service Controls ベータ版のサポートを提供します。

2019 年 3 月 24 日

次の SDK バージョンは、JSON-RPC と Global HTTP Batch のエンドポイントのサポートが中止されたため、2019 年の後半に廃止される予定です。この変更により、2019 年 3 月に廃止措置が行われる予定と述べていた 2018 年 12 月 17 日のリリースノートは無効になります。

  • Apache Beam SDK for Java、バージョン 2.0.0~2.4.0
  • Apache Beam SDK for Python、バージョン 2.0.0~2.4.0
  • Cloud Dataflow SDK for Java、バージョン 2.0.0~2.4.0
  • Cloud Dataflow SDK for Python、バージョン 2.0.0~2.4.0

SDK サポート状況の詳細については、SDK バージョンのサポート状況のページをご覧ください。

2016 年 3 月 20 日

Apache Beam SDK 2.4.0 と Cloud Dataflow SDK 2.4.0 は非推奨になりました。サポート状況の詳細については、SDK バージョンのサポート状況表をご覧ください。

2019 年 3 月 11 日

Cloud Dataflow が europe-west6 リージョン(スイス、チューリッヒ)で使用できるようになりました。

2019 年 3 月 6 日

Apache Beam SDK 2.10.0 は gcsio クライアント ライブラリ バージョン 1.9.13 に依存していますが、これには既知の問題があります。

上記の問題を回避するには、Apache Beam SDK 2.11.0 にアップグレードするか、gcsio クライアント ライブラリのバージョンを 1.9.16 以降にオーバーライドしてください。

2019 年 2 月 25 日

Cloud Dataflow Monitoring Interface で、パイプラインのシステムのレイテンシとデータの鮮度の指標を表示できるようになりました。

2019 年 2 月 20 日

Apache Beam SDK 2.10.0 には、2018 年 12 月 20 日および 2019 年 2 月 4 日に公開された既知の問題に対する修正が含まれています。

2019 年 2 月 4 日

特定のケースでは、Apache Beam Java SDK(2.9.0 以前)と Cloud Dataflow Java SDK(2.5.0 以前)を使用すると、Cloud Storage からファイルを読み取る際にデータの重複が発生する可能性があります。重複が発生する可能性があるのは、以下のすべての条件に該当する場合です。

  • content-encoding が gzip に設定されているファイルを読み込んでいて、しかも Cloud Storage によってファイルが動的に解凍トランスコードされている。

  • (解凍済みの)ファイルサイズが 2.14 GB より大きい。

  • 入力ストリームが 2.14 GB 読み取られた後、エラーになる(そして再作成される)。

回避策として、content-encoding ヘッダーを設定せずに、適切な拡張子(たとえば gzip の場合は gz)を付けて Cloud Storage に圧縮ファイルを保存します。既存のファイルの場合は、gsutil ツールを使用して content-encoding ヘッダーとファイル名を更新できます。

2018 年 12 月 20 日

既知の問題のため、Streaming Engine ユーザーは SDK 2.9.0 にアップグレードしないでください。SDK 2.9.0 を使用する場合は、enable_conscrypt_security_provider 実験フラグを設定して、既知の安定性の問題がある conscrypt を有効にする必要があります。

2018 年 12 月 17 日

JSON-RPC および Global HTTP Batch Endpoints の廃止に伴い、2019 年 3 月 25 日に次の SDK のバージョンが廃止される予定です。この日を過ぎると、新しい Cloud Dataflow ジョブを送信したり、廃止された SDK を使用して実行中の Cloud Dataflow ジョブを更新したりすることはできなくなります。さらに、これらの SDK バージョンを使用する既存のストリーミング ジョブが失敗することがあります。

  • Apache Beam SDK for Java、バージョン 2.0.0~2.4.0
  • Apache Beam SDK for Python、バージョン 2.0.0~2.4.0
  • Cloud Dataflow SDK for Java、バージョン 2.0.0~2.4.0
  • Cloud Dataflow SDK for Python、バージョン 2.0.0~2.4.0

SDK サポート状況の詳細については、SDK バージョンのサポート状況のページをご覧ください。

2018 年 10 月 22 日

Cloud Dataflow で asia-east2 リージョン(香港)のゾーンのワーカーを使用できるようになりました。

2018 年 10 月 16 日

Cloud Dataflow SDK 1.x for Java は 2018 年 10 月 16 日にサポート対象外になりました。近い将来、Cloud Dataflow サービスでは Cloud Dataflow SDK 1.x for Java に基づく新しい Cloud Dataflow ジョブが拒否されます。移行ガイダンスについては、Cloud for Dataflow SDK 1.x for Java からの移行をご覧ください。

2018 年 10 月 3 日

Cloud Dataflow に、ワーカーノードのパブリック IP アドレスをオフにすることができるパブリック IP パラメータが追加されました。

2018 年 7 月 16 日

Cloud Dataflow Shuffle が一般提供になりました。

2018 年 7 月 10 日

Cloud Dataflow で us-west2 リージョン(ロサンゼルス)のゾーンのワーカーを使用できるようになりました。

2018 年 6 月 14 日

Streaming Engine のベータ版が一般公開されました。Streaming Engine では、ストリーミング パイプラインの実行がワーカー VM から Cloud Dataflow サービスのバックエンドに移動されます。

2018 年 6 月 11 日

パイプライン ジョブを実行するときに、ユーザーが管理するコントローラ サービス アカウントを指定できるようになりました。

Cloud Dataflow で europe-north1 リージョン(フィンランド)のゾーンのワーカーを使用できるようになりました。

2018 年 4 月 26 日

Cloud Dataflow モニタリング インターフェースから、パイプラインの副入力メトリックを確認できるようになりました。

2018 年 2 月 21 日

Cloud Dataflow は、リージョン エンドポイント us-central1us-east1europe-west1asia-east1asia-northeast1一般提供サポートするようになりました。

2018 年 1 月 10 日

Cloud Dataflow で northamerica-northeast1 リージョン(モントリオール)のゾーンのワーカーを使用できるようになりました。

Cloud Dataflow で europe-west4 リージョン(オランダ)のゾーンのワーカーを使用できるようになりました。

2017 年 10 月 31 日

Cloud Dataflow で asia-south1 リージョン(ムンバイ)のゾーンのワーカーを使用できるようになりました。

2017 年 10 月 30 日

Cloud Dataflow Shuffleeurope-west1 リージョンで使用可能になりました。

Cloud Dataflow Shuffle が、Apache Beam SDK for Python バージョン 2.1 以降を使用してパイプラインで使用できるようになりました。

2017 年 10 月 25 日

Cloud Dataflow により、次の Google 提供のテンプレートが追加でベータサポートされるようになりました。テンプレートの使用を開始するには、クイックスタートに従ってください。

2017 年 10 月 12 日

2017 年 10 月 2 日に公開された既知の問題を修正しました。

2017 年 10 月 2 日

Cloud Dataflow 2.x パイプラインでは、PTransform の出力が他の 1 つ以上のフラット化された PTransform によって消費されるにもかかわらず、形式が正しくないグラフが PTransform により出力されるため、他の PTransform には入力が行われないままになります。

2017 年 9 月 20 日

Cloud Dataflow は、リージョン エンドポイント us-central1europe-west1 のベータ版のサポートを提供します。

2017 年 9 月 5 日

Cloud Dataflow で southamerica-east1 リージョン(サンパウロ)のゾーンのワーカーを使用できるようになりました。

2017 年 8 月 1 日

Cloud Dataflow で europe-west3 リージョン(フランクフルト)のゾーンのワーカーを使用できるようになりました。

2017 年 7 月 20 日

Dataflow のモニタリング インターフェースから、パイプラインの Stackdriver エラーレポートに直接アクセスできるようになりました。

2017 年 6 月 20 日

Cloud Dataflow で australia-southeast1 リージョン(シドニー)のゾーンのワーカーを使用できるようになりました。

2017 年 6 月 6 日

Cloud Dataflow で europe-west2 リージョン(ロンドン)のゾーンのワーカーを使用できるようになりました。

2017 年 4 月 25 日

ステップごとのワーカーログに Cloud Dataflow UI で直接アクセスできるようになりました。詳細については、ドキュメントをご覧ください。

2017 年 4 月 11 日

ストリーミング ジョブは、すべてのステップが最大ウォーターマークに達すると、Cloud Dataflow サービスにより自動的にシャットダウンされます。これは、すべてのソースが制限ありの入力のみを生成するパイプラインにのみ影響します。たとえば、Cloud Pub/Sub から読み取るストリーミング パイプラインは影響を受けません。

2017 年 4 月 3 日

Cloud Dataflow UI によるグラフ レイアウトが改善されました。

2016 年 9 月 29 日

ストリーミング パイプライン用の自動スケーリングが、ソースおよびシンクの選択向けにベータ版で利用可能になりました。詳しくは、自動スケーリングのドキュメントをご覧ください。

2016 年 9 月 15 日

Cloud Dataflow SDK for Java 1.6 以降を使用したバッチ パイプラインに対する自動スケーリングのデフォルトの上限が、10 ワーカー VM に引き上げられました。--maxNumWorkers パイプライン オプションを使用して、代替上限を指定できます。詳しくは、自動スケーリングのドキュメントをご覧ください。

2016 年 8 月 18 日

Cloud Dataflow SDK for Java 1.6 以降を使用したバッチ パイプラインの自動スケーリングが、デフォルトで有効になりました。この変更は数日内にプロジェクトにロールアウトされる予定です。デフォルトでは、Cloud Dataflow サービスの動的なワーカー数が 5 ワーカー VM の上限に制限されています。デフォルトの自動スケーリングの上限は今後のリリースで引き上げられる予定です。--maxNumWorkers パイプライン オプションを使用して、代替上限を指定できます。詳しくは、自動スケーリングのドキュメントをご覧ください。

2016 年 7 月 27 日

Cloud Dataflow SDK for Python の 0.4.0 リリースのベータ版サポートが発表されました。クイックスタートをお読みになり、サービス上でパイプラインをリモート実行してください。

ストリーミング モードでのパイプラインのデフォルトのディスクサイズが 420 GB になりました。この変更は数日内にプロジェクトにロールアウトされる予定です。

2016 年 3 月 14 日

Cloud Dataflow SDK for Java バージョン 1.5.0 の使用時のスケーラビリティとパフォーマンスが、以下のように改善されました。

  • このサービスは、BoundedSource からの読み取り時の初期分割が数万にスケールされました。これには、TextIO.ReadAvroIO.ReadBigtableIO.Read などが含まれています。
  • このサービスでは、BigQueryIO.Read の BigQuery エクスポート形式として JSON の代わりに Avro を使用します。この変更により、BigQuery からの読み取り時の効率性とパフォーマンスが大幅に向上します。

2016 年 1 月 29 日

ストリーミング ジョブのランタイム環境の変更:

  • --filesToStage でアップロードされたファイルは、以前はワーカーの /dataflow/packages にダウンロードされていました。最新のサービス リリースでは、/var/opt/google/dataflow という場所にダウンロードされます。この変更は、Linux の標準的なパス変換にさらに対応することを目的としたクリーンアップです。

2016 年 1 月 19 日

バッチジョブのランタイム環境の変更:

  • --filesToStage でアップロードされたファイルは、以前はワーカーの /dataflow/packages にダウンロードされていました。最新のサービス リリースでは、/var/opt/google/dataflow という場所にダウンロードされます。この変更は、Linux の標準的なパス変換にさらに対応することを目的としたクリーンアップです。

2015 年 11 月 13 日

Monitoring UI におけるユーザビリティの向上:

  • [ジョブログ] タブの名前を [ログ] に変更しました。
  • [ログを表示] ボタンを [ログ] タブに移動し、その名前を [ワーカーログ] に変更しました。

ストリーミング パイプラインのパフォーマンスと安定性の向上:

  • ストリーミング ワーカーのメモリ使用量の増加速度が遅くなる状態を解決しました。
  • 一度にメモリ内に完全に収めるために、大きなウィンドウ バッファを使用する必要はなくなりました。
  • データの局所性によるホットスポットを回避するためにディスクの割り当てを改善しました。
  • ローカル ディスクがいっぱいにならないようにワーカーのロギングを最適化しました。

2015 年 8 月 12 日

Cloud Dataflow サービスが一般提供されました。

2015 年 8 月 6 日

モニタリングの変更:

  • Monitoring UI とコマンドライン インターフェースでの Cloud Dataflow ジョブに使用可能な state の値として JOB_STATE_CANCELLED を追加しました。これは、ユーザーによるジョブのキャンセル時に表示されます。
  • 上記のジョブの状態の導入の一環として、単一ジョブビューに関連するリストビューに別のジョブの状態が一時的に表示される場合があります。
  • Monitoring UI と、制限付きジョブに有効なコア時間カウントに Google Compute Engine のコア時間カウント フィールドを追加しました(制限なしジョブの場合は、フィールドに "-" が入力されます)。

制限なしランナーのパフォーマンスが向上しました。

2015 年 7 月 28 日

アクティブなジョブ名が各プロジェクト内で一意となるように、ジョブの作成中にチェックを追加しました。これで、アクティブなジョブと同じ名前のジョブを作成することがなくなります。システムで実行している同じ名前のアクティブなジョブがすでに存在する場合、これらのジョブは、この変更による影響を受けません。

2015 年 4 月 23 日

Monitoring UI が改善されました。ステージの [ログを表示] タブをクリックすると、デフォルトでユーザーコードによって生成されたログがワーカーマシンに表示されるようになりました。

2015 年 4 月 16 日

Cloud Dataflow サービスがベータ版で利用可能になりました。

Monitoring UI の改善: ジョブの詳細ページに、期間、ジョブタイプなどのジョブの詳細情報が表示されるようになりました。ストリーミング パイプラインの場合は、さらにデータ ウォーターマークも表示されます。

2015 年 4 月 13 日

gcloud alpha の Cloud Dataflow でコマンドライン インターフェースが使用できるようになりました。

バッチのデフォルトのディスクサイズは 250 GB です。

2015 年 4 月 9 日

Monitoring UI の改善: パイプラインの構成の可視化が改善されました。

バッチジョブのデフォルトの VM が n1-standard-1 になりました。

ジョブの完了とキャンセルに対するリソース破棄のオペレーションが改善されました。

サービスのパフォーマンスが向上しました。

2015 年 4 月 3 日

Monitoring UI の改善: ジョブのリストに名前、タイプ、開始時刻、ジョブ ID が含まれるようになりました。

2015 年 3 月 27 日

コンピューティング リソースのエラスティック スケーリングのメカニズムが改善されました。バッチ パイプラインにより、実行のさまざまな段階でワーカーのプールサイズを増やしたり、減らしたりすることができるようになりました。

2015 年 3 月 20 日

モニタリングの変更:

  • ジョブの概要ページに現在のジョブのステータスが表示されるようになりました。
  • UI のパフォーマンスが向上しました。

2015 年 3 月 6 日

ワーカーで Java 8 ランタイムを使用できるようになりました。

2015 年 3 月 1 日

動的作業再調整が可能になりました。

アルファ版を利用しているすべてのプロジェクトでストリーミング サポートが有効になりました。

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。