コンテンツに移動
データ分析

Dataflow Prime: ビッグデータ処理で優れた効率と抜本的な簡素化を実現

2021年5月27日
https://storage.googleapis.com/gweb-cloudblog-publish/images/Google_Blog_CloudMigration_B.max-2600x2600.jpg
Google Cloud Japan Team

※この投稿は米国時間 2021 年 5 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。

企業が変化に対応できるスピードは、成功と混乱の差となって現れます。「生じたこと」に対処するだけでは不十分です。企業は「現在生じていること」と「生じる可能性のあること」を把握し、それに応じてプロアクティブな行動を取る必要があります。こうしたビジネス上の課題にリアルタイムで対処することで、チームは変化するビジネスニーズに迅速に対応し、タイムリーかつ適切で快適なユーザーエクスペリエンスを提供できます。

このような課題などに対処するデータ プラットフォームを構築できるように、Dataflow をご用意しました。Dataflow は NoOps のサーバーレス データ処理プラットフォームで、アプリケーションとユーザーが生成する膨大な量のデータを収集して強化できます。

Dataflow を使用してデータをリアルタイムに処理し、ビジネス ユーザーにとって有用で分析可能な情報にするお客様もいれば、ストリーミング分析のリファレンス パターンを使用して ML をデータ パイプラインに統合するお客様もいます。Sky は Dataflow を利用し、数百万ものユーザーに拡張された機能を提供しています。また、多くのお客様は、(Dataflow テンプレートを使用して)Dataflow でストリーミング データとバッチデータをデータレイクに統合し、ビジネス ユーザーがほぼリアルタイムの分析情報を得て意思決定を促進できるようにしています。非営利団体の Harambee は Dataflow で ML を使用し、失業中の若者と仕事を結び付けています。

いかなるユースケースでも、オープンな API(Apache Beam)に基づく Dataflow の NoOps フルマネージド プラットフォームにより、ユーザーはデータ アーキテクチャを大幅に簡略化し、ML を使用して分析情報を提供できます。

Dataflow Prime のご紹介

本日は、新しいプラットフォームである Dataflow Prime についてご紹介します。Dataflow Prime は、NoOps のサーバーレス自動チューニング アーキテクチャに基づいており、オンボーディング、使用、操作が簡単です。Dataflow Prime を構築した目的は、優れたリソース使用率と操作の抜本的な簡素化をビッグデータ処理にもたらすことです。

Dataflow Prime はリソース使用率と分散処理の診断のイノベーションにより、ユーザーのメリットが一段と向上する機能です。Dataflow の新機能により、インフラストラクチャのサイズ設定や調整のタスクに費やす時間だけでなく、データの鮮度に関する問題の診断に費やす時間が大幅に削減されます。Dataflow Prime を使用すると、次の方法で少ないリソースでより多くの作業を実施できます。

  • リソースのサイズ設定に費やす時間を節約: 垂直自動スケーリングは(水平自動スケーリングと組み合わせて)、パイプラインに最適なサイズのワーカーリソースを決定するために何日も費やす必要がありません。

  • リソース使用量の最適化とコストの節約: 業界初のテクノロジーである Right Fitting により、データ パイプラインの各ステージでカスタム リソースの形状を使用できるようになり、無駄が減ります。

  • 生産性の向上: 新しい診断ツールにより、ビジネス サービスレベル目標(SLO)データ処理ジョブを達成し維持しやすくなります。

Best Buy をはじめとするお客様は、Dataflow Prime の新機能の登場を歓迎しています。データ パイプラインの管理や診断を大規模に行えるツールを待ち望んでいたからです。

Best Buy のエンジニアリング担当シニア ディレクターである Ramesh Babu 氏は、次のように述べています。「完全に自動化された方法で継続的に変化するワークロードを処理するために効果的にスケールすることは、サービスレベル目標(SLO)を達成するうえで欠かせません。Dataflow Prime のスマート診断機能と自動チューニング機能は、それを可能にするだけでなく、データ パイプラインのパフォーマンスをより適切にモニタリングできるようにしてくれます。」


可用性と互換性

Dataflow Prime は 2021 年の第 3 四半期の早い時期プレビュー版がご利用になれます。Dataflow Prime は、Dataflow を現在使用している場合に大半のユーザーが Dataflow Prime を利用する際に変更がないように構築されています。現在の形式の Dataflow は引き続きご利用いただけます。お客様に最適なタイミングで Dataflow Prime に移行できます。また、Dataflow を初めて使用する場合でも Dataflow などのメリットを最大限活用できます。

Serverless++ 自動チューニングで優れたリソース使用率を実現

現在の Dataflow には、いくつかの自動チューニング機能がすでに備わっています。Dataflow Prime はこの基盤の上に構築されており、次の新機能で限界をさらに押し広げます。

  • 垂直自動スケーリングは、使用率に基づいて各ワーカーに割り振られたコンピューティング容量を動的に調整します。垂直自動スケーリングはユーザーのジョブがワーカー リソースで制限されている状況を検出し、それらのワーカーにリソースを自動的に追加します。垂直自動スケーリングは水平自動スケーリングと連携し、パイプラインのニーズに最適なワーカーをシームレスにスケールします。その結果、完璧なワーカーの形状を決定し使用率を最大化する作業に数時間から数日もかかることがなくなりました。また、垂直自動スケーリングはジョブの信頼性も高めます。たとえば、使用可能な容量よりも多くのメモリを必要とするジョブは、メモリ不足エラーによって途中で失敗します。このような場合、垂直自動スケーリングは自動的にメモリを追加して、ジョブが最後まで実行できるようにします。

  • Right Fitting: パイプラインの各ステージには通常、他のステージとは異なるリソース要件があります。たとえば、あるパイプライン ステージで大規模な ML モデルを使用し、ML 予測を実装する場合があります。その結果、より大きなメモリワーカーがパイプライン ステージに必要になることがあります。その次のステージでは画像処理に GPU を使用する場合があります。このような場合、これまでは、パイプライン内のすべてのワーカーが大容量のメモリと GPU を利用するか、いずれも利用しないという選択肢しかありませんでした。つまり、パイプラインはリソースを浪費するか、ワークロードの遅延や停止が負担になっていました。Right Fitting は、この問題を解決するために、ステージごとに最適化されたステージ固有のリソースプールを作成します。たとえば、画像を処理するステージは GPU を取得しますが、ML スコアリングを処理するステージはメモリを追加で取得します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/sukurinshiyotsuto_2021-05-27_8.45.39.max-800x800.png

前述の新機能により、Dataflow は基盤となるコンピューティング リソースを柔軟なプールとして処理でき、水平方向にも垂直方向にもスケールし、パイプラインのニーズに合わせて非常にきめ細かく調整することが可能です。この自動調整インフラストラクチャは、大規模なデータ処理における特に困難で手間のかかる作業を解決します。

スマート診断で抜本的な簡素化を提供

Google 自身が使用するビッグデータ処理システムの数十年にわたる構築に基づいて、データ パイプラインの問題をすばやく簡単に特定できる一連の新しいビッグデータ診断や最適化ツールを作成しました。ボトルネックを特定し、問題のあるユーザーコードを見つけることは、1 台のサーバーで実行されている単一スレッド アプリケーションの場合でも、とても困難な作業です。その上、数十から数百ものワーカーで実行されているデータ並列パイプラインを処理する場合、これはさらに難しい問題になります。Dataflow Prime には次の機能が用意されています。

  • Job Visualizer: コードが数十から数百ものワーカーの間でどのように実行されるかを確認できます。ホットキーと非効率的なコードは、ステージの進行状況ビューで細長いバーとして表示されるため、並列化のボトルネックがこれまでになく簡単に見つかります。また、このツールはパイプラインのステージごとにステップのリストが経過時間の降順で表示されます。そのため、コードを最適化できる場所をすばやく確認できます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/Job_Visualizer.gif

  • マネージド パイプライン: ユーザーが関心を寄せる特に重要な側面は、ビジネス SLO の達成です。個々のジョブの管理は重要な要件ではありますが、ユーザーが満たす必要のあるビジネスニーズや SLO に力を注ぐうえで障壁となり得ます。このニーズに対処するために、マネージド パイプラインはスケジュール、モニタリング、SLO 追跡、その他の管理機能を論理パイプライン レベルに移行し、必要がある場合は特定のジョブを管理する機能を維持します。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/Managed_Pipeline.gif

  • スマート推奨事項: パイプラインの問題を自動的に検出して修正案を表示します。たとえば、パイプラインで権限の問題が発生している場合、スマート推奨事項はジョブのブロックを解除するために有効にする必要がある IAM 権限を検出します。非効率的なコーダーをジョブで使用している場合、スマート推奨事項により、パフォーマンスの高いコーダー実装が表示され、コストを節約できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Smart_Recommendations.max-1800x1800.jpg

次のステップ

Dataflow Prime が実際の利用段階に入ったことを嬉しく思います。Dataflow Prime は 2021 年第 3 四半期からプレビュー版でご利用になれます。ご興味のあるお客様は、こちらに登録して最新情報を受け取るか、Google Cloud セールスチームまでお問い合わせください。

- Google Cloud プロダクト管理担当ディレクター Evren Eryurek 博士

- Google Cloud エンジニアリング ディレクター Haakon Ringberg

投稿先