Gen AI Evaluation Service の概要

Vertex AI の Gen AI Evaluation Service を使用すると、生成モデルまたはアプリケーションを評価し、独自の評価基準に基づいて、独自の判断と照らし合わせて評価結果のベンチマークを実施できます。

リーダーボードとレポートではモデルの全般的なパフォーマンスについて分析情報を得られる一方、モデルが特定のニーズにどのように対処しているのかは明らかになりません。Gen AI Evaluation Service では、独自の評価基準を定義したうえで、生成 AI モデルとアプリケーションがユースケースにどの程度即したものであるかを明確に把握できます。

生成 AI の開発のプロセスでは、モデルの選択、プロンプトエンジニアリング、モデルのカスタマイズを含めて、あらゆるステップで評価が重要な意味を持ちます。Vertex AI には生成 AI 評価機能が組み込まれているため、必要に応じて評価を実施し、再利用できます。

Gen AI Evaluation Service の機能

Gen AI Evaluation Service は、次のタスクに役立ちます。

モデルの選択: ベンチマークの結果や、固有のデータに対するパフォーマンスに基づいて、タスクに応じた最適な事前トレーニング済みモデルを選択できます。
生成設定: モデルのパラメータ（温度など）を微調整して、お客様のニーズに合わせて出力を最適化できます。
プロンプトエンジニアリング: 効果的なプロンプトとプロンプトテンプレートを作成して、希望する動作やレスポンスへとモデルを誘導できます。
改善と安全対策のためのファインチューニング: モデルのファインチューニングによって、お客様のユースケースにおけるパフォーマンスを改善すると同時に、バイアスや望ましくない動作を防止できます。
RAG の最適化: 最も効果的な検索拡張生成（RAG）アーキテクチャを選択して、アプリケーションのパフォーマンスを強化できます。
移行: AI ソリューションのパフォーマンスを継続的に評価し、お客様固有のユースケースで明確なメリットを得られる場合は新しいモデルに移行して、パフォーマンスを改善できます。

評価プロセス

Gen AI Evaluation Service では、次の手順に沿って、任意の生成 AI モデルまたはアプリケーションを評価基準に基づいて評価できます。

評価指標を定義する:
- モデルベースの指標をビジネス基準に合わせて調整する方法を確認します。
- 単一のモデルを評価する（ポイントワイズ）か、2 つのモデルを比較して勝者を決定します（ペアワイズ）。
- 計算ベースの指標を追加して、より多くの分析情報を取得します。
評価データセットを準備する。
- 特定のユースケースを反映したデータセットを提供します。
評価を実行する。
- 最初から作成するか、テンプレートを使用するか、既存のサンプルを利用します。
- 候補モデルを定義し、EvalTask を作成して、Vertex AI で評価ロジックを再利用します。
評価結果を表示して解釈する。

ユースケース評価用のノートブック

次の表に、生成 AI 評価のさまざまなユースケース用の Vertex AI SDK for Python ノートブックを示します。

ユースケース	説明	ノートブックへのリンク
モデルを評価する	クイックスタート: Gen AI Evaluation Service SDK の概要	Gen AI Evaluation Service SDK のスタートガイド
	タスクのファーストパーティ（1P）基盤モデルを評価して選択します。	タスクのファーストパーティ（1P）基盤モデルを評価して選択する
	生成 AI モデルの設定を評価して選択する: 要約タスクで Gemini モデルの温度、出力トークンの上限、安全性設定などのモデル生成構成を調整し、さまざまなモデル設定の評価結果を複数の指標で比較します。	Gemini のさまざまなモデルパラメータ設定を比較する
	Vertex AI Model Garden でサードパーティ（3P）モデルを評価する。このノートブックは、Gen AI Evaluation Service SDK を使用して Google の Gemini モデルとサードパーティの言語モデルの両方を評価するための包括的なガイドです。さまざまな評価指標および手法を使用し、オープンモデルとクローズドモデル、モデルエンドポイント、サードパーティクライアントライブラリなど、さまざまなソースのモデルを評価して比較する方法を学びます。さまざまなタスクにわたって対照テストを実施し、モデルのパフォーマンスを分析する実践的な経験を積みます。	Gen AI Evaluation Service SDK を使用して Vertex AI Studio、Model Garden、Model Registry でモデルを評価する
	Gen AI Evaluation Service SDK を使用して、PaLM モデルから Gemini モデルに移行します。このノートブックでは、複数の評価指標を使用して PaLM と Gemini の基盤モデルを評価し、モデル間の移行に関する意思決定をサポートする方法について説明します。これらの指標を可視化して、各モデルの長所と短所に関する分析情報を得ることで、ユースケースの特定の要件に最も適したモデルを十分な情報に基づいて選択できます。	PaLM モデルと Gemini モデルを比較して移行する
プロンプトテンプレートを評価する	Gen AI Evaluation Service SDK を使用したプロンプトエンジニアリングとプロンプト評価。	より良い結果を得るためにプロンプトテンプレートの設計を評価して最適化する
生成 AI アプリケーションを評価する	Gemini モデルのツールの使用状況と関数呼び出し機能を評価します。	Gemini モデルツールの使用を評価する
	Gen AI Evaluation Service SDK を使用して、質問応答タスクの検索拡張生成（RAG）から生成された回答を評価します。	検索拡張生成（RAG）から生成された回答を評価する
	Vertex AI Gen AI Evaluation Service で LangChain chatbot を評価する。このノートブックでは、Vertex AI Gen AI Evaluation Service SDK を使用して LangChain 会話型 chatbot を評価する方法について説明します。データの準備、LangChain チェーンの設定、カスタム評価指標の作成、結果の分析を取り上げます。このチュートリアルでは、レシピを提案する chatbot を例にして、プロンプト設計を反復してパフォーマンスを改善する方法を示します。	LangChain を評価する
指標のカスタマイズ	次の機能を使用して、モデルベースの指標をカスタマイズし、特定の基準に従って生成 AI モデルを評価します。テンプレートによるカスタマイズ: 事前定義されたフィールドを使用して、ポイントワイズおよびペアワイズモデルベースの指標を定義できます。完全なカスタマイズ: ポイントベースおよびペアワイズモデルベースの指標の設計を完全に制御できます。	モデルベースの指標をカスタマイズして生成 AI モデルを評価する
	ローカルで定義したカスタム指標を使用して生成 AI モデルを評価し、独自の判定モデルを使用してモデルベースの指標評価を実行します。	カスタム指標を使用した Bring-Your-Own-Autorater
	独自の計算ベースのカスタム指標関数を定義し、Gen AI Evaluation Service SDK での評価に使用します。	独自の計算ベースのカスタム指標を利用する
その他のトピック	Gen AI Evaluation Service SDK のプレビュー版から GA 版への移行ガイド。このチュートリアルでは、Gen AI Evaluation Service 用の Vertex AI SDK for Python のプレビュー版から最新の GA 版への移行プロセスについて説明します。また、このガイドでは、GA バージョンの SDK を使用して検索拡張生成（RAG）を評価し、ペアワイズ評価を使用して 2 つのモデルを比較する方法についても説明します。	Gen AI Evaluation Service SDK のプレビュー版から GA 版への移行ガイド

サポートされているモデルと言語

Vertex AI 生成 AI 評価サービスは、Google の基盤モデル、サードパーティのモデル、オープンモデルをサポートしています。事前に生成された予測をお客様が直接提供することや、次の方法で候補モデルのレスポンスを自動生成することもできます。

Google の基盤モデル（Gemini 1.5 Pro など）と Vertex AI Model Registry にデプロイされた任意のモデルのレスポンスを自動生成します。
他のサードパーティやオープンモデルの SDK テキスト生成 API と統合します。
Vertex AI SDK を使用して、他のプロバイダのモデルエンドポイントをラップします。

Generative AI Evaluation Service は、Gemini 1.5 Pro でサポートされているすべての入力言語をサポートしています。ただし、英語以外の入力に対する評価の品質は、英語の入力に対する評価の品質ほど高くない場合があります。