Vertex AI のマルチモーダル評価を活用して生成メディアモデルを評価

Irina Sigler
Product Manager, Cloud AI
Anant Nawalgaria
Sr. Staff ML Engineer, Google
※この投稿は米国時間 2025 年 5 月 14 日に、Google Cloud blog に投稿されたものの抄訳です。
生成 AI の世界は急速に進化しており、Lyria、Imagen、Veo などのモデルでは、シンプルなテキスト プロンプトから驚くほどリアルで想像力に富んだ画像や動画を生成できるようになりました。ただ、これらのモデルの評価は、依然として困難な課題です。従来から行われている人間による評価はゴールド スタンダードとされていますが、時間も費用もかかるため、迅速な開発サイクルの妨げになりかねません。
この課題に対処するために、Google Cloud の Vertex AI 評価サービスで利用可能となった Gecko をご紹介します。Gecko は生成 AI モデルを評価するためのルーブリック ベースの解釈可能な自動生成ツールです。このツールを使うことで、デベロッパーは画像生成モデルや動画生成モデルのパフォーマンスについて、より詳細でカスタマイズ可能、かつ透明性の高い評価を行えるようになります。
自動評価ツールによる生成モデルの評価における課題
生成の品質が劇的に向上するにつれ、有用で高パフォーマンスな自動評価ツールの作成はより困難になっています。特化型モデルは効率的であるものの、デベロッパーがモデルの動作を理解し、改善すべき領域を特定するために必要な解釈可能性に欠けています。たとえば、生成された画像がプロンプトをどれだけ正確に表現しているかを評価する場合、1 つのスコアではモデルが成功したか失敗したかの理由を明らかにできません。
Gecko の概要: 解釈可能でカスタマイズ可能、かつ高パフォーマンスな評価
Gecko は、詳細な設定と解釈が可能で、カスタマイズできる自動評価ツールを提供します。Google DeepMind の研究論文では、このような自動評価システムが、さまざまなスキルにわたって画像や動画の生成を高い信頼性のもとに評価できることが示されており、費用のかかる人間による判断への依存度を軽減できます。特に、Gecko は解釈可能性だけでなく優れたパフォーマンスを発揮し、Imagen のような主要モデルの進歩を評価するベンチマークにおいてすでに大きく貢献しています。
Gecko は、明確で段階的なルーブリックに基づくアプローチで、評価結果を解釈可能なものにします。例として、テーブルの上に置かれたコーヒーとクロワッサンが描かれた生成メディアを Gecko で評価してみましょう。


図 1: 実行例として使用するプロンプトと画像のペア
ステップ 1: セマンティック プロンプトの分解
Gecko は Gemini モデルを活用し、まずは、生成されたメディアで検証する必要がある主要なセマンティック要素に入力テキスト プロンプトを分解します。これにはエンティティ、その属性、エンティティ間の関係の特定が含まれます。
実行例では、プロンプトが「湯気」「コーヒーカップ」「クロワッサン」「テーブル」というキーワードに分割されています。
ステップ 2: 質問の生成
分解されたプロンプトに基づいて、Gemini モデルは一連の質問と回答のペアを生成します。これらの質問は、生成された画像や動画に、特定された要素や関係が存在するかどうか、またそれが正確であるかどうかを調べるために特別に設計されています。必要に応じて、Gemini は特定の回答が正解である理由を説明し、透明性をさらに強化できます。
実行例を見て、各キーワードに対して質問と回答のペアを生成してみましょう。キーワード「湯気」に対する質問と回答のペアは、「コーヒーカップから湯気は出ていますか?「はい」、「いいえ」」で、正解は「はい」です。


図 2: セマンティック プロンプト分解、および質問と回答の生成ステップの出力を可視化したもの。
ステップ 3: スコアリング
最後に、Gemini モデルは生成されたメディアを各質問と回答のペアと比較してスコア付けします。これらの個々のスコアが集計され、最終的な評価スコアを生成します。
実行例では、すべての質問が正解と判定され、最終スコアは満点でした。


図 3: スコアリング ステップの出力を可視化したもの。各質問に対するスコアを示し、それらを集計して最終的な全体スコアを算出しています。
Vertex AI での Gecko を使用した評価
Gecko は、Vertex AI の Gen AI Evaluation Service を介して利用可能できるようになりました。これにより、画像生成モデルや動画生成モデルを評価できます。Vertex AI で画像と動画の Gecko 評価を開始するには、次の手順に沿って操作します。
まず、ルーブリック生成とルーブリック検証の両方の構成を設定する必要があります。
次に、評価用のデータセットを準備します。これには、プロンプトとそれに対応する生成された画像または動画の列を含む Pandas DataFrame の作成が含まれます。
これで、構成した rubric_based_gecko 指標を使用して、プロンプトに基づいてルーブリックを生成できます。
最後に、生成されたルーブリックとデータセットを使用して評価を実行します。EvalTask の evaluate メソッドは、生成されたコンテンツをスコア付けするために、ルーブリック バリデータを使用します。
評価を実行した後、最終スコアを計算して分析し、生成されたコンテンツがプロンプトから得られた詳細な基準とどの程度一致しているかを確認できます。
Vertex AI Gen AI Evaluation Service ではサマリーと指標のテーブルが提供され、評価のパフォーマンスに関する詳細な分析情報を確認できます。さらに、Gecko では、各質問が分類されるカテゴリまたはコンセプト、およびそのカテゴリに対して生成された画像または動画のスコアを確認できます。たとえば、「猫は灰色ですか?」という質問は、「色」という質問カテゴリに分類されます。
これらの詳細な評価結果にアクセスすることで、以下に示すような棒グラフやレーダー チャートなどで、さまざまな基準に基づくモデルのパフォーマンスをわかりやすく可視化できます。


図 4: 生成されたメディアの総合的なパフォーマンスをさまざまなカテゴリ / 基準で可視化したもの
Vertex AI の Gecko により、モデルの機能を詳細に評価するための堅牢なフレームワークを利用できます。テキストから画像への変換とテキストから動画への変換の評価 Colab を参照し、実際にお確かめください。
-Cloud AI、プロダクト マネージャー Irina Sigler
-Google、シニアスタッフ ML エンジニア Anant Nawalgaria