Forrester が AI インフラストラクチャのリーダーに Google Cloud を選出
Google Cloud Japan Team
※この投稿は米国時間 2021 年 12 月 14 日に、Google Cloud blog に投稿されたものの抄訳です。
Google Cloud は Forrester Research の、「The Forrester Wave™: AI Infrastructure, Q4 2021」レポート(著者 Mike Gualtieri 氏、Tracy Woo 氏)においてリーダーに選出されました。Forrester はこのレポートで、AI アーキテクチャ、トレーニング、推論、管理といった項目を、事前に定義された判定基準に照らして評価しました。Forrester の分析と評価により、お客様はビジネスに持続的な影響を与える重要なプラットフォームの選択を行うために必要な安心感を得られます。
Google は、アーキテクチャ設計、アーキテクチャ コンポーネント、トレーニング ソフトウェア、トレーニング データ、トレーニング スループット、トレーニング レイテンシ、推論スループット、推論レイテンシ、管理オペレーション、外部管理、デプロイの効率性、実行ロードマップ、イノベーション ロードマップ、パートナー エコシステム、商業モデル、顧客数といった 16 の Forrester Wave 評価基準において最高のスコアを獲得しました。
エンドツーエンドのデータ サイエンス エクスペリエンスを実現するための統合されたデータおよび AI ソリューション プロバイダであるという Google のビジョンが、アーキテクチャとイノベーション分野での高いスコアの獲得につながり、Forrester に評価されたと考えています。Google は、お客様があらゆる場面で Google の強みを活用できるよう、最も堅牢で包括的なエクスペリエンスを構築することに尽力しています。今回は、このレポートで取り上げられた多くの分野の中から、Google が得意とする 4 つの主な分野について見ていきます。
AI インフラストラクチャ: イノベーションを構成する要素の活用
組織がビジネスの運営に Google Cloud を選択すれば、全世界で利用できる革新的なインフラストラクチャのメリットを得ることができます。Google は、Deep Learning VM やコンテナ、最新の GPU や TPU、キュレートされた ISV サービスのマーケットプレイスなど、VM や Google Kubernetes Engine(GKE)に独自のカスタム ソフトウェア スタックを設計するための一連の豊富な構成要素をユーザーに提供しています。
Google は、高パフォーマンスのトレーニング、低コストな推論、大規模で高速化されたデータ処理など、さまざまなユースケースに対応した GPU アクセラレータと TPU アクセラレータを提供しています。Google は、単一の VM に NVIDIA A100 GPU を最大 16 基提供する唯一のパブリック クラウド プロバイダであり、単一ノードで大規模な AI モデルのトレーニングが可能です。ユーザーは、単一ノードの ML トレーニング用に複数の VM を構成することなく、NVIDIA A100 GPU 1 基から始めて、最大 16 基までスケールできます。 また Google は、PyTorch、TensorFlow、JAX を用いた大規模な AI 研究のために TPU Pod を提供しています。 新しい第 4 世代 TPU Pod は、4800 億のパラメータ言語モデルを含む最近の MLPerf ベンチマークでエクサフロップ級の高いパフォーマンスを発揮し優れた結果を残しました。
Google Kubernetes Engine では、Autopilot、高度に自動化されたクラスタのバージョンのアップグレード、クラスタのバックアップと復元といった独自の機能を備えた最先端の Kubernetes サービスを提供しています。GKE は、クラスタあたり 15,000 ノードのサポートや、自動プロビジョニング、 自動スケーリング、さまざまなマシンタイプ(CPU、GPU、TPU、オンデマンド、Spot など)に対応しているので、トレーニング、推論、Kubeflow Pipelines のためのスケーラブルなマルチノードのオーダーメイド プラットフォームに適しています。また、ML ワークロードでは、動的なスケジューリング、オーケストレートされたメンテナンス、高可用性、ジョブ API、カスタマイズ性能、フォールト トレラント、ML フレームワークに対する GKE のサポートからメリットを得られます。 企業のフットプリントが GKE クラスタのフリートに拡大すれば、データチームは Anthos Config Management を活用して、一貫した構成とセキュリティ ポリシー コンプライアンスを適用できます。
包括的な MLOps: ガバナンスを犠牲にすることなく迅速に簡素化されたモデルを構築
Google のフルマネージド Vertex AI プラットフォームでは、データの取り込みと準備から、モデルのデプロイ、モニタリング、管理に至るまで、ML のライフサイクル管理向けのサービスを提供しています。Vertex AI は、競合プラットフォーム 1 と比較して、モデルのトレーニングに必要なコードの行数が約 80% 少なくなっています。これにより、専門知識のレベルを問わず、すべてのデータ サイエンティストや ML エンジニアが、機械学習オペレーション(MLOps)を実装し、開発ライフサイクル全体を通じて効率的に ML プロジェクトを構築、管理することが可能となります。
Vertex AI Workbench では、データから ML ワークフロー全体に対して単一の環境をデータ サイエンティストに提供することにより、従来のノートブックと比べて、モデルの構築とトレーニングを5 倍の速度で行うことができます。これは、データサービス(Dataproc、BigQuery、Dataplex、Looker など)のインテグレーションによって有効にすることができ、コンテキストの切り替えを大幅に減らせます。 また、ユーザーは、NVIDIA GPU へのアクセス、ハードウェアの即座の変更、インフラストラクチャの費用を最適化するためアイドル状態でのシャットダウンの設定が可能です。
さらに組織は、モデルのパフォーマンスを追跡するためのツールを組み込んだ Vertex AI を使用して、任意のフレームワーク(TensorFlow、PyTorch、Scikit learn、XGBoost など)で構築されたモデルをビルドしデプロイできます。 また、Vertex Training では、同期データ並列型アルゴリズムにあわせて、NVIDIA GPU でマルチノードの分散トレーニングの帯域幅とレイテンシを最適化する Reduction Server など、大規模なモデルを開発するためのさまざまなアプローチを提供しています。 Vertex AI Prediction はサーバーレスで、ノードのプロビジョニングとデプロビジョニングを自動的にバックグラウンドで行い、低レイテンシのオンライン予測を提供します。また、エンドポイントの背後にある複数のモデル間で、トラフィックを分割する機能も備えています。さらに、Vertex AI でトレーニングしたモデルをエクスポートして、プライベート クラウド、または他のパブリック クラウドにデプロイすることもできます。
提供中のサービスにおける Google の強みは、アーキテクチャ、トレーニング、データ スループット、レイテンシにあります。その効果を高めているのは、核となる AI コンピューティング機能とエンドツーエンドの AI ライフサイクルの管理を実現する MLOps サービスを備えたプロダクトである Vertex AI の提供です。
The Forrester Wave:™ AI Infrastructure, Q4 2021
モデルの構築に加え、ガバナンス、セキュリティ、監査可能性に関するツールのデプロイも重要です。こうしたツールは、規制された業界のコンプライアンスに不可欠で、チームがデータの保護、特定のモデルが失敗する理由の把握、モデルの改善方法を決定するのに役立ちます。
オーケストレーションと監査可能性に対して、Vertex Pipelines と Vertex ML Metadata では、ML パイプラインの入出力と、ML アーティファクトのリネージを追跡します。モデルが本番環境に実装されると、Vertex AI Model Monitoring によって特徴の偏りやドリフトの検出がサポートされ、データ サイエンティストにアラートが出されます。こうした機能により、デバッグにかかる時間を短縮し、規制遵守とデータの健全性を良好に保つのに一般的に必要とされる可視性を生み出します。説明可能性に関して、Vertex Explainable AI は、チームが分類タスクや回帰タスクにおいてモデルの出力を理解するのに役立ちます。Vertex AI は、データ内の各特徴が予測結果に及ぼした影響の度合いを説明します。データチームはこの情報を元に、モデルが期待どおりに動作していることを確認し、モデルのバイアスを認識して、モデルやトレーニング データの改善方法を確認できます。
これらのサービスは、データ サイエンティストや ML エンジニアの MLOps を簡素化することで、企業が ML のイニシアチブの価値創出までの時間を短縮することを目的としています。
セキュリティ: ML パイプラインの流れを止めずにデータを保護
Google のスタックは漸進型の多層構造でセキュリティを構築することで、多層防御を実現しています。また、データ保護、認証、認可、否認防止を実現するために、ブートレベルの署名や信頼チェーンの検証などの対策を行っています。
ユビキタスなデータ暗号化によって、お客様自身が持つ鍵を使用して、保存データ、使用中のデータ、転送中のデータを一元管理できます。
Google は、Confidential Dataproc または Confidential VMs を使用し、マネージド Hadoop や Spark によって完全に暗号化された機密環境での実行オプションも提供しています。
パートナー エコシステム: 世界に通用する AI スペシャリストとの連携
Google は、認定を受けた世界中のパートナーと連携し、お客様が複雑な AI システムを設計、実装、管理できるようサポートしています。Google は、最大手のグローバル システム インテグレータとの深いパートナーシップをはじめ、業界全体でカスタマー サクセスを実証している、 Google の機械学習のスペシャライゼーションを有するパートナーのリストを拡大しています。また、Google Cloud Marketplace では技術パートナーのリストが提供されています。そこに記載されている技術パートナーは、Google の AI インフラストラクチャで機械学習アプリケーションをデプロイできるように企業を支援しています。
ML のニーズに応えるパートナーを目指す Google の献身
OTOY、アレン人工知能研究所、DeepMind(Alphabet の子会社)などの主要組織は ML に Google を選択し、Twitter、Wayfair、The Home Depot などの企業は Google Next '21 で行われた最近のセッションで Google とのパートナーシップについて詳細を共有しました。
適切に調整、管理された ML システムを構築することは、洗練されたシステムを使用する高いスキルを持ったデータ サイエンティストにとってさえ、従来は困難なことでした。上記の Google が注力した重要な柱により、組織は統合された AI Platform 内で、トレーニング済のカスタムツールを使用して、ML モデルをより迅速に構築、デプロイ、スケーリングできます。
今後もお客様のデジタル トランスフォーメーションを支援する革新的な取り組みを続けていきたいと考えています。レポートの全文は、こちらからダウンロードできます。Vertex AI の利用を開始するにあたり、Google の AI および ML に関するインフラストラクチャの今後についてこちらを確認し、セールスチームにご相談ください。
- Google Cloud Platform、技術インフラストラクチャ部門バイス プレジデント兼ゼネラル マネージャー Brad Calder