評価の例

迅速評価 SDK を使用して生成 AI モデルの評価を行う方法の例をいくつか示します。

プロンプトテンプレートのデザインを評価して最適化する

迅速評価 SDK を使用して、プロンプトエンジニアリングの効果を評価します。プロンプトテンプレートに対応する統計情報を調べて、プロンプトの違いが評価結果にどのように影響するかを把握します。

迅速評価 SDK を使用して、ベンチマークデータセットとタスクで Gemini Pro モデルと Text Bison モデルの両方のスコアを取得します。

エンドツーエンドの例については、「LLM モデルのスコアリングと選択」ノートブックをご覧ください。

迅速評価 SDK を使用して、要約タスクで Gemini Pro の温度を調整し、quality、fluency、safety、verbosity を評価します。

エンドツーエンドの例については、「モデル生成設定の評価と選択」ノートブックをご覧ください。

迅速評価 SDK を使用して、カスタム定義の指標で複数のプロンプトテンプレートを評価します。

エンドツーエンドの例については、「独自の指標を定義する」ノートブックをご覧ください。

迅速評価 SDK を使用して、Gemini モデルの API 関数とツールを定義します。また、SDK を使用して、Gemini のツールの使用状況と関数呼び出しの品質を評価することもできます。

エンドツーエンドの例については、「評価用の生成モデルツールの使用と関数呼び出し」ノートブックをご覧ください。