Vertex AI の生成 AI は、MaaS モデルからアクティビティを自動的に収集して報告し、レイテンシの問題を迅速にトラブルシューティングして容量をモニタリングできるようにします。

使用可能なモニタリング指標
モデルの可観測性ダッシュボードには、Cloud Monitoring によって収集された指標のサブセット(秒間モデル リクエスト数(QPS)、トークン スループット、最初のトークンのレイテンシなど)が表示されます。ダッシュボードを表示して、使用可能なすべての指標を確認します。
ユースケース
アプリケーション デベロッパーは、公開したモデルをユーザーがどのように操作しているかを確認できます。たとえば、モデルの使用状況(1 秒あたりのモデル リクエスト数)とユーザー プロンプトのコンピューティング強度(モデル呼び出しレイテンシ)の推移を確認できます。これらの指標はモデルの使用量に関連しているため、各モデルの実行費用を見積もることもできます。
問題が発生した場合は、ダッシュボードから迅速にトラブルシューティングできます。API エラー率、最初のトークンのレイテンシ、トークンのスループットを確認することで、モデルが信頼性とタイムリーに応答しているかどうかを確認できます。
制限事項
Vertex AI は、モデルのエンドポイントへの API 呼び出しのダッシュボード指標のみをキャプチャします。Vertex AI Studio の指標など、Google Cloud コンソールの使用状況はダッシュボードに追加されません。
ダッシュボードを表示する
Google Cloud コンソールの [Vertex AI] セクションで、[ダッシュボード] ページに移動します。
[モデルのオブザーバビリティ] セクションで [すべての指標を表示] をクリックして、Google Cloud Observability コンソールでモデルのオブザーバビリティ ダッシュボードを表示します。
特定のモデルまたは特定の地域の指標を表示するには、ダッシュボード ページの上部で 1 つ以上のフィルタを設定します。
各指標の説明については、Google Cloud 指標ページの「aiplatform」セクションをご覧ください。
参考情報
- ダッシュボードにアラートを作成するには、Monitoring ドキュメントのアラートの概要ページをご覧ください。
- 指標データの保持については、Monitoring の割り当てと上限をご覧ください。
- 保存データの詳細については、保存データの保護をご覧ください。
- Cloud Monitoring が収集するすべての指標のリストを表示するには、[Google Cloud 指標] ページの [aiplatform] セクションをご覧ください。