AI & 機械学習

Google Cloud、Vertex AI における Gemini、Imagen、Gemma、MLOps のアップデートを発表

2024年4月10日

https://storage.googleapis.com/gweb-cloudblog-publish/images/Next24_Blog_Images_6-04.max-2500x2500.jpg

Google Cloud Japan Team

※この投稿は、2024 年 4 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。

Vertex AI は、あらゆるハイパースケールプロバイダのさまざまな基盤モデル、堅牢なインフラストラクチャオプション、モデル開発と MLOps のための豊富なツールセットへのアクセスを提供するほか、生成 AI アプリやエージェントの構築だけでなく、デプロイとメンテナンスもできるワンストッププラットフォームです。本日 Google Cloud Next ‘24 で、モデルに関するアップデートやプラットフォーム機能など、Vertex AI のさらなる強化を発表しました。

Gemini 1.5 Pro を Vertex AI のパブリックプレビューで提供開始し、世界中の開発者に世界最大のコンテキストウィンドウを提供します。また、画像生成モデルのファミリーである Imagen 2.0 は、テキストプロンプトからの短い 4 秒のライブ画像を生成できるようになりました。インペインティングやアウトペインティング、電子透かしなどの画像編集機能も Imagen 2.0 で一般提供しています。さらに、軽量モデルの Gemmaファミリーにおける新モデル CodeGemma を Vertex AI に追加します。
生成 AI サービスにとって、応答の精度は非常に重要であるため、Google Cloud は、Vertex AI のグラウンディング機能を拡張し、Google 検索で応答を直接グラウンディングする機能をパブリックプレビューとして公開しました。Vertex AI ユーザーは、モデル応答の精度を大幅に向上させる新鮮で高品質の情報にアクセスできるようになります。

お客様が本番環境でモデルを管理およびデプロイできるよう、大規模モデル向けの新たなプロンプト管理と評価サービスなど、生成 AI 向けの MLOps 機能を拡張しました。これらの機能により、組織は大規模生成 AI モデルから最高のパフォーマンスを簡単に引き出し、実験から運用までのプロセスをより迅速に繰り返すことができます。

これらの発表について詳しく紹介します。

最適なエンタープライズ対応モデルの選択肢をお客様に提供

Google Cloud では、お客様に最適なエンタープライズ対応モデルの選択肢を提供するというミッションをさらに強化しています。過去 2 か月の間に、Vertex AI では Google の Gemini 1.0 Pro や、Gemini の開発に使用した研究とテクノロジーに基づく軽量のオープンモデルファミリーの Gemma、およびAnthropic の Claude 3 モデルファミリーなど、さまざまな最先端のファーストパーティ、サードパーティ、オープンモデルへのアクセスを追加しました。

2 月に発表した Gemini 1.5 Pro は現在パブリックプレビューとして公開しており、世界初の 100 万トークンのコンテキストウィンドウをお客様に提供しています。この画期的な進歩により、リクエストに対する固有で膨大な量のデータに対するマルチモーダルな推論がネイティブで可能になります。

AI を活用したカスタマーサービスエージェントやアカデミックチューターの構築、大規模で複雑な財務書類の分析、ドキュメント内のギャップの検出、自然言語によるコードベースやデータコレクション全体の探索など、お客様はまったく新しいユースケースを生み出しています。

例えば United Wholesale Mortgage は、Gemini 1.5 Pro を使用して引受業務を強化し、住宅ローン申請プロセスを自動化しています。

SAP は、さまざまな大規模言語モデルへの即時アクセスを提供する SAP Generative AI Hub にて Gemini 1.5 Pro を採用し、活用する機会を模索しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/rgb_tbs_v1.0.max-1100x1100.png

日本の大手放送局である TBS は、Gemini 1.5 Pro を使用して大規模なメディアアーカイブのメタデータのタグ付けを自動化し、制作プロセスでの資料検索の効率を大幅に向上させることを検討しています。

Replit は、Gemini 1.5 Pro を試用し、より高速、正確、およびパフォーマンスの高いコードの生成、説明、変換の変換を実現しています。

さらに、Vertex AI の Gemini 1.5 Pro が、スピーチや動画の音声などを含むオーディオストリームの処理をサポートすることも発表しました。これにより、テキスト、画像、動画、音声から洞察を提供するシームレスなクロスモーダル分析が可能となります。これは、決算説明会や投資家会議での質問の書き起こし、検索、分析、回答などに活用できます。

Imagen は高度な生成メディア機能を提供

Gemini モデルは高度な推論や汎用的なユースケースに最適ですが、Shutterstock や楽天などの企業が特殊な機能を提供するためには、タスク固有の生成 AI モデルが役立ちます。Imagen 2.0 を活用して、高品質で高精度な画像をエンタープライズ規模で生成する組織が増えています。

本日プレビューを公開したテキストからライブ画像への変換機能により、Imagen はエンタープライズワークロードにおける強力なツールになります。これにより、マーケティングチームやクリエイティブチームは、GIF などのアニメーション画像をテキストプロンプトから生成できるようになります。当初、ライブ画像は 24 フレーム/秒 (fps)、360x640 ピクセルの解像度、4 秒の継続時間で配信されますが、継続的に強化される予定です。

このモデルはエンタープライズアプリケーション向けに設計しているため、自然、食品、動物などのテーマに適しています。シーケンス全体の一貫性をサポートしながら、さまざまなカメラアングルとモーションを生成できます。さらに、クリエイターとユーザーの信頼関係を守るため、ライブ画像生成用の Imagen には安全フィルターと電子透かしが装備されています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_9iiKQLk.max-1300x1300.jpg

また、Imagen 2.0 の画像生成機能も更新され、インペインティングやアウトペインティングなどの高度な写真編集機能が加わりました。本機能は Vertex AI 上の Imagen 2.0 で一般提供されており、簡単に画像内の不要な要素を削除したり、新しい要素を追加したり、画像の境界線を拡大したりできます。さらに、Google DeepMind の SynthID を利用した電子透かしも一般提供されており、Imagen ファミリーのモデルによって生成された画像とライブ画像を検証できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-1_ijdXt9E.max-1300x1300.jpg

基盤モデルと「エンタープライズトゥルース」を接続

基盤モデルはトレーニングデータによって制限されるため、すぐに古くなり、また、モデルにエンタープライズのユースケースに必要な情報が含まれていない可能性があります。Google は本日、Google 検索でのモデルのグラウンディングを提供することを発表し、 Google の最新基盤モデルと、最新かつ高品質な情報へのアクセスを提供します。ユーザーは、数十年にわたる情報品質のランク付けと理解の経験に基づいて構築された、最も信頼されている情報源の 1 つに基づいた結果を得ることができます。

また、検索ドキュメントやデータストアのセマンティック類似性などの方法を使用して、企業がエンタープライズデータソースでモデルの応答をグラウンディングできるようにする検索拡張生成 (RAG) を活用する複数の方法も提供しています。

Google Cloud では、検索とエンタープライズデータでグラウンディングすることを「エンタープライズトゥルース」と呼んでいます。「エンタープライズトゥルース」は、チャットを超えて、ユーザーに代わって積極的に情報を検索し、タスクを実行する AI エージェントを構築するための基盤になると考えています。

大規模な生成 AI モデルから最高のパフォーマンスを引き出す

大規模モデルの構築におけるニーズを満たすため、Vertex AI の MLOps 機能を拡張しました。お客様は、モデルレジストリ、機能ストア、モデルのイテレーションとデプロイを管理するパイプラインなどの共通の機能セットを使用して、すべての AI プロジェクトに取り組むことができます。これにより、お客様は生成 AI ワークロードのニーズを満たしながら、既存の MLOps 投資から引き続きメリットを享受することができます。

本日の発表により、組織は大規模生成 AI モデルから簡単に最高のパフォーマンスを引き出し、実験から運用までをより迅速に反復できるようになります。

Vertex AI プロンプト管理は、生成 AI の最大の課題である、プロンプトの実験と移行、およびプロンプトとパラメータの追跡を対象としています。現在プレビューを公開している Vertex AI プロンプト管理は、バージョニング、古いプロンプトの復元、プロンプトのパフォーマンスを向上させるための提案の AI 生成など、チーム間で使用されるプロンプトのライブラリを提供します。お客様はプロンプトのイテレーションを並べて比較し、小さな変更がアウトプットにどのように影響するかを評価できるほか、コラボレーションを促進するためのメモやタグ付けなどの機能も利用できます。

お客様は Vertex AI の評価ツールを利用し、特定のタスクセットにおいてモデルを比較できます。現在、Rapid Evaluation のプレビューが利用でき、ユーザーが最適なプロンプト設計を反復する際にモデルのパフォーマンスを評価できるようになりました。ユーザーは、さまざまな側面（類似性、指示の追従性、流暢さなど）のメトリクスや特定のタスクのバンドル（テキスト生成の品質など）にアクセスできます。さらに、より堅牢な評価には、2 つのモデルのパフォーマンスを比較するのに役立つ AutoSxS の一般提供を開始しました。これには、1 つのモデルが別のモデルより優れている理由の説明や、ユーザーが評価の精度を理解するのに役立つ確実性スコアが含まれています。

「AutoSxS は、当社の生成 AI モデル評価機能における大きな進歩を表しています。評価の自動化は、LLM を本番環境に導入するための重要な成功要因でした。」 - Generali Italia、テクニカルリード責任者 Stefano Frigerio 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-2_qLKKN01.max-1300x1300.jpg

また、本日、Vertex AI 上の Gemini、Imagen、Embeddings API の Data Residency (DRZ) を、オーストラリア、ブラジル、フィンランド、香港、インド、イスラエル、イタリア、ポーランド、スペイン、スイス、台湾の 11 か国に拡大しました。また、Gemini 1.0 Pro および Imagen を使用する際、機械学習処理を米国または欧州連合 (EU) に制限することもできるようになりました。2023 年に発表した 10 か国にこれらの新しいリージョンが加わったことにより、お客様はデータの所在地とアクセス方法をより詳細に制御できるようになり、世界中の規制要件やセキュリティ要件を満たすことが容易になります。

生成 AI の進化で次のステップへ

生成 AI の可能性を解き放つには、モデルとインフラストラクチャの機能とコストのバランスを取り、モデルの推論が適切なデータに基づいて、大規模なモデルをデプロイ、管理、保守できるように MLOps を適応させる必要があります。本日の発表により、Vertex AI のお客様はこれらの要件を今まで以上に迅速かつ簡単に満たすことができ、導入の複雑さにリソースを費やさず、AI を活用したイノベーションに集中できるようになります。Google Cloud は、世界中の組織とともに生成 AI を進化させていくことを楽しみにしています。Vertex AI に関する詳細、無料トライアル開始はこちらをご覧ください。

- Google Cloud、ML、システム、クラウド AI 担当ゼネラルマネージャー兼バイスプレジデント Amin Vahdat

投稿先