Vertex AI Model Garden 向けの組み込みパフォーマンス モニタリング機能のご紹介
Kate Brea
Product Manager, Google Cloud Observability
Warren Barkley
Senior Director, Product Management, Google Cloud
※この投稿は米国時間 2025 年 3 月 7 日に、Google Cloud blog に投稿されたものの抄訳です。
このたび、Gemini やその他のマネージド基盤モデル向けにパフォーマンス モニタリング機能とアラート機能が組み込まれたことをお知らせします。これらは、Vertex AI のホームページからご利用できます。
高速で信頼性の高いスケーラブルなアプリケーションを構築するには、生成 AI モデルのパフォーマンスをモニタリングすることが不可欠です。しかし、これらのモデルのパフォーマンスを理解することは容易ではなく、これまでは、指標がどこに保存されているか、それらの指標が Cloud コンソールのどこにあるかを学ぶ必要がありました。
このたび、これらの指標に Vertex AI のホームページから直接アクセスして、モデルの健全性を簡単に確認、把握できるようになりました。Cloud Monitoring に組み込まれているダッシュボードでは、生成 AI モデルの使用状況、レイテンシ、エラー率に関する情報を確認できます。また、リクエストが失敗または遅延した場合にアラートを迅速に構成することもできます。
仕組み
Vertex AI 基盤モデルを使用している場合は、Vertex AI の [ダッシュボード] タブでモデルの全体的な指標を確認できます。また、Cloud Monitoring のすぐに使えるダッシュボードをクリックして、詳細情報を取得したりダッシュボードをカスタマイズしたりできます。ここでは、容量の制約、費用の予測、エラーのトラブルシューティングをより適切に行うことができます。また、障害とその原因を迅速に通知するアラートを簡単に構成することもできます。


Vertex AI でのモデルのオブザーバビリティの表示


アラートの構成
たとえば、あなたは会社の SRE として、新しいカスタマー サービス chatbot の稼働時間を確保する責任を担っており、速度低下、エラー、予期しない使用量など、chatbot で発生する可能性のある問題を俯瞰的に把握できるダッシュボードを探しているとします。この場合、適切な指標を探して、それらを表示するダッシュボードを作成する代わりに、Vertex のダッシュボード ページにアクセスすることで、大まかな指標を表示できます。また、[すべての指標を表示] をクリックすると、クエリレート、文字とトークンのスループット、レイテンシ、エラーに関する情報を網羅した詳細かつ独自のダッシュボードを表示できます。
次に、モデルが多数のリクエストに対して 429 エラーを返していることに気付いたとします。これは、モデルに関連付けられた ML サービスを提供するリージョンで、お客様全体の合計容量が不足したときに発生します。この問題を解決するには、プロビジョンド スループットを購入する、ML 処理の場所を切り替える、あまり混雑していない時間に緊急でないリクエストをバッチ リクエストを使用してスケジュールする、などの方法があります。また、推奨されるアラートをすぐに有効にして、以後、リクエストの 1% 以上が 429 エラーを返す場合に通知するように設定できます。
使ってみる
Vertex AI Model Garden のマネージド生成 AI モデルをご利用の場合は、各プロジェクトの Vertex ダッシュボード ページにある [モデルのオブザーバビリティ] タブをご確認ください。[すべての指標を表示] をクリックすると、組み込みのダッシュボードが表示されます。生成 AI ワークロードに関連する推奨アラートを構成するには、Cloud Monitoring の Vertex AI の統合をご確認ください。
-Google Cloud Observability、プロダクト マネージャー Kate Brea
-Vertex、プロダクト管理担当シニア ディレクター Warren Barkley