コンテンツに移動
データ分析

Dataflow GPU を使用したデータ処理の強化

2021年8月4日
Google Cloud Japan Team

※この投稿は米国時間 2021 年 7 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。

Google は、NVIDIA と協力してビッグデータ処理の世界に GPU を導入し、新たな可能性を切り開きます。Dataflow GPU を使用すると、データ パイプラインで NVIDIA GPU のパワーを活用できるようになります。これにより、Apache Beam のシンプルさと豊富さ、サーバーレスと NoOps という Dataflow の利点、そして GPU ベースのコンピューティングのパワーがすべて得られます。Dataflow GPU はオンデマンドでプロビジョニングされるため、課金されるのは使用期間中のみで済みます。

現在、あらゆる規模と業種の企業が、データドリブンな変革に苦戦しています。この変革では、データ処理を機械学習と組み合わせて使用し、システム、ユーザー、デバイス、およびそれらを取り巻く幅広いエコシステムについて分析と意思決定を行うことが、重要な要素となります。

Dataflow により、膨大な量のデータ(構造化データ、ログデータ、センサーデータ、オーディオ動画ファイル、その他の非構造化データなど)を処理し、機械学習を使用してビジネスやユーザーに影響を与える意思決定を行えるようになります。たとえば、クレジット カード詐欺の検出、動画ストリーミングの分析による物理的侵入検知、ネットワーク ログの分析によるネットワーク侵入の検出などの問題を解決するために Dataflow が使用されています。

GPU の利点

汎用計算用に最適化された CPU とは異なり、GPU は並列処理用に最適化されています。GPU は SIMD(単一命令、複数データ)アーキテクチャを実装しているため、大規模なデータブロックを並列処理するアルゴリズムの効率が向上します。一般的に、メディアを処理し機械学習を適用する必要があるアプリケーションの場合、GPU の高度な並列性によるメリットが得られます。

Google Cloud のお客様は NVIDIA GPU を使用することで、データ処理タスク、画像処理、予測などの機械学習タスクの高速化が可能になります。どのようなメリットが得られるかを把握するために、NVIDIA はテストを実行して、自然言語処理に TensorRT 最適化 BERT(Bidirectional Encoder Representations from Transformers)ML モデルを使用する Dataflow パイプラインのパフォーマンスを比較しました。次の表は、このテストの結果を示したものです。Dataflow GPU を使用してパイプラインを高速化すると、パイプラインの CPU とメモリ使用量を大幅に減少させることができました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/nvidia_gpu_config.max-2000x2000.jpg

メリットの大きさは、データおよび実行される計算タイプによって異なるため、ご自身のワークロードで Dataflow GPU をテストすることをおすすめします。

お客様の声

Cloud to Street は、衛星と AI を使用して、世界各地で発生する洪水をほぼリアルタイムで追跡し、リスク対策と救命に役立っています。同社は Dataflow パイプラインを使用して、衛星データのバッチ処理とダウンロードを大規模に自動化し、災害の分析と対策のための広範な洪水マップを作成しています。Cloud to Street は、衛星画像を処理するだけでなく、リソース消費量の多い機械学習タスクを Dataflow パイプライン自体で適用するために、Dataflow GPU を使用しています。

「GPU 対応の Dataflow パイプラインは、機械学習アルゴリズムを衛星画像に非同期的に適用します。その結果、手動によるマシンのスケーリング、独自のクラスタの維持、ワークロードの分散、プロセスのモニタリングに時間を費やすことなく、大規模なマップを簡単に作成できます」と、Cloud to Street の機械学習エンジニア、Veda Sunkara 氏は述べています。

Dataflow GPU の使用を開始する

Dataflow GPU では、NVIDIA® T4 Tensor Core、NVIDIA® Tesla® P4、NVIDIA® V100 Tensor Core、NVIDIA® Tesla® P100、NVIDIA® Tesla® K80 といった高パフォーマンス NVIDIA GPU のラインナップが備えられており、いずれかを柔軟に選択してご利用いただけます。

Dataflow GPU の使用は簡単です。worker_accelerator パラメータを使用して、Dataflow ワーカーに接続する GPU のタイプと数を指定できます。また、インストール プロセスを自動化することで、GPU ドライバのインストールも簡単になりました。install-nvidia-driver パラメータを指定すると、必要な GPU ドライバを自動的にインストールするよう Dataflow に指示できます。

GPU 搭載 Apache Beam ノートブック

Apache Beam ノートブックでは、パイプラインの開発を繰り返し行ったり、JupyterLab ノートブックを使用してパイプライン グラフをインタラクティブに検査したりすることが可能です。Apache Beam ノートブックに GPU のサポートが追加されたため、GPU を活用した新しい Apache Beam ジョブを簡単に開発し、ジョブを Dataflow にデプロイする前に繰り返しテストできます。Apache Beam ノートブックのドキュメントの手順に沿って、新しいノートブックのインスタンスを起動し、Dataflow GPU を使用する組み込みのサンプル パイプラインをご確認ください。
https://storage.googleapis.com/gweb-cloudblog-publish/images/nvidia_apache_Beam_notebooks_with_GPU.max-1400x1400.jpg

統合モニタリング

また、GPU のモニタリングを Cloud Monitoring に統合しました。これにより、パイプライン内の GPU リソースのパフォーマンスと使用状況をモニタリングし、それに応じた最適化を簡単に行うことができるようになります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/nvidia_Integrated_monitoring.max-1500x1500.jpg

今後の展開: GPU の Right Fitting

Dataflow Prime Preview の一部として、Right Fitting という画期的な新機能も発表いたします。Right Fitting を使用すると、GPU リソースを必要とするパイプラインのステージを指定できます。これにより、Dataflow サービスによる GPU プロビジョニングを、必要なパイプラインのステージにのみ限定できるため、パイプラインのコストを大幅に削減できます。Right Fitting の機能の詳細については、こちらを参照してください。Dataflow GPU の詳細については、Dataflow での GPU のサポートを参照してください。Dataflow GPU の料金は使用量に基づいて計算されます。料金に関する情報は、Dataflow の料金を参照してください。

-プロダクト マネージャー Shan Kulandaivel

投稿先