評価の例

迅速評価 SDK を使用して生成 AI モデルの評価を行う方法の例をいくつか示します。

プロンプト テンプレートのデザインを評価して最適化する

迅速評価 SDK を使用して、プロンプト エンジニアリングの効果を評価します。プロンプト テンプレートに対応する統計情報を調べて、プロンプトの違いが評価結果にどのように影響するかを把握します。

エンドツーエンドの例については、「より良い結果を得るためにプロンプト テンプレートの設計を評価して最適化する」ノートブックをご覧ください。

ベンチマーク指標を使用して LLM モデルを評価して選択する

迅速評価 SDK を使用して、ベンチマーク データセットとタスクで Gemini Pro モデルと Text Bison モデルの両方のスコアを取得します。

エンドツーエンドの例については、「LLM モデルのスコアリングと選択」ノートブックをご覧ください。

モデル生成の設定を評価して選択する

迅速評価 SDK を使用して、要約タスクで Gemini Pro の温度を調整し、qualityfluencysafetyverbosity を評価します。

エンドツーエンドの例については、「モデル生成設定の評価と選択」ノートブックをご覧ください。

指標を定義する

迅速評価 SDK を使用して、カスタム定義の指標で複数のプロンプト テンプレートを評価します。

エンドツーエンドの例については、「独自の指標を定義する」ノートブックをご覧ください。

評価ツールの使用

迅速評価 SDK を使用して、Gemini モデルの API 関数とツールを定義します。また、SDK を使用して、Gemini のツールの使用状況と関数呼び出しの品質を評価することもできます。

エンドツーエンドの例については、「評価用の生成モデルツールの使用と関数呼び出し」ノートブックをご覧ください。

次のステップ