データ分析

次世代の Dataflow: Dataflow Prime、Dataflow Go、Dataflow ML

2022年8月2日

Google Cloud Japan Team

※この投稿は米国時間 2022 年 7 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。

IDC によれば、2024 年の終わりまでに、企業の 75% は人工知能の試験運用から本格的な運用に移行すると見込まれています。しかし、データ型、異種データスタック、プログラミング言語の複雑化が進む中、あらゆるデータエンジニアにとってその実現が困難になっています。また、現在の経済状況を鑑みると、多くの組織でコスト削減と費用対効果も重要な考慮事項となります。

本日は、より多くの開発者が Google Cloud の Dataflow の機能を利用できるようにする 3 種類のメジャーリリースをご紹介します。これらのリリースにより、費用を抑えながら、幅広いユースケースとより多くのデータ処理ワークロードに対処できるようになります。これは、ビッグデータ、リアルタイムストリーミング、ML / AI の力を、場所を問わずすべての開発者が平等に活用できるようにするという Google の目標に合致しています。

以下の 3 種類の Dataflow リリースの一般提供が開始されます。

Dataflow Prime - Dataflow の「サーバーレス、オペレーション不要」というメリットを大幅に強化しました。Dataflow Prime では、ストリーミングデータ処理ワークロードについて水平自動スケーリング（より多くのマシン）と垂直自動スケーリング（よりメモリの多い大型マシン）の両方を利用でき、将来的にはバッチにも対応する予定です。Dataflow Prime を使用すると、パイプラインの効率が向上するため、リアルタイムで分析情報を適用できるようになります。
Dataflow Go - 急成長しているプログラミング言語、Go をネイティブにサポートします。Go の急成長の要因は、バッチとストリーミング両方のデータ処理ワークロードに対応した柔軟性、使いやすさ、差別化されたコンセプトにあります。Apache Beam に固有の複数言語モデルを採用した Dataflow Go のパイプラインは、環境に適した高パフォーマンスを発揮します。これは幅広い Java I/O コネクタによって実現されるもので、間もなく Python の ML 変換と I/O コネクタも導入されます。
Dataflow ML - ML 変換に関しては、Dataflow のパイプライン内での PyTorch および scikit-learn モデルの直接的な実行がデフォルトでサポートされるようになりました。新しい RunInference 変換では、ほとんどコードを作成せずにモデルを本番環境パイプラインで使用できるようにすることで、簡素化を実現します。これらの機能は、GPU のサポートや、Tensorflow Extended（TFX）などのフレームワークを介した、または直接的な ML トレーニング向けの前処理および後処理システムといった、Dataflow の既存の ML 機能に加えて導入されます。

Google は Dataflow を進化できたことを大変嬉しく思います。Apache Beam が提供する世界で唯一の真の統合バッチおよびストリーミングデータ処理モデル、ML フレームワークの幅広いサポート、Beam モデルに固有の言語横断的機能を備えた Dataflow は、さらに使いやすくスピーディになり、あらゆるデータ処理のニーズに対応できます。

開始方法

Dataflow Go を簡単に導入するには、クイックスタートを参照し、Go SDK をダウンロードしてください。
Dataflow Prime について詳しくは、ドキュメントをご覧ください。
Dataflow ML と RunInference について詳しくは、Apache Beam のウェブサイトで新しい RunInference Beam 変換に関する情報をご覧ください。

自社データを使用した概念実証をご希望の場合は、ハンズオンワークショップについて Google Cloud の営業担当者までお問い合わせいただくか、こちらからご登録ください。

データ分析