コンテンツに移動
AI & 機械学習

Vertex AI Gen AI Evaluation Service で LLM の品質と解釈可能性を向上させる

2024年8月13日
https://storage.googleapis.com/gweb-cloudblog-publish/original_images/Vertex_Eval_05_1.gif
Anant Nawalgaria

Sr. Staff ML Engineer, Google

Irina Sigler

Product Manager, Cloud AI

Gemini 1.5 モデル をお試しください。

Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダル モデルです。

試す

※この投稿は米国時間 2024 年 7 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。

大規模言語モデル(LLM)を活用しているデベロッパーは、2 つの重要なハードルに遭遇することがよくあります。それは、LLM 出力特有のランダムな性質の管理と、時折事実と異なる情報を生成する傾向への対処です。サイコロを振るのと少し似ていて、LLM には、同じプロンプトに対して異なる回答を返すなどやや予測しにくい性質があります。このランダムさは、創造性を高める一方で、整合性や事実の正確性が重要な場合には障害になる場合もあります。さらに、時折発生する「ハルシネーション」(LLM が誤った情報を事実のように提示すること)により、その機能に対する信頼が損なわれる可能性があります。現実世界の多くのタスクには単一の明確な答えがないと考えると、課題はさらに深刻になります。複雑な情報の要約や、心をつかむマーケティング コピーの作成、革新的な製品のアイデアのブレインストーミング、説得力のあるメールの下書き作成など、テーマを問わず、有効なソリューションが複数存在するのはよくあることです。

このブログ投稿と付属のノートブックでは、新しいワークフローを導入してこのような課題に取り組む方法を見ていきます。新しいワークフローでは、LLM で多様な回答を生成し、Vertex Gen AI Evaluation Service によって最適な回答の選択プロセスを自動化するとともに関連する品質指標と説明を提供します。このプロセスは、マルチモーダル入出力にも拡張可能で、業界や LLM の種類を問わずほぼすべてのユースケースで役立ちます。

次のような状況を想定してください。ある金融機関が、顧客と相談員との会話を要約しようとしています。難しいのは、その要約が現実に即した根拠のあるものであり、有用で、読みやすく簡潔に書かれているようにすることです。要約を作成する方法は数多くありますが、その品質には大きな差があります。ここでは、LLM の確率的性質と Vertex Gen AI Evaluation Service を活用して、LLM で生成される要約のパフォーマンスを向上させた方法をご紹介します。

ステップ1: 多様な回答を生成する

ここでの基本的な考え方は、最初の回答にとらわれずに考えることでした。因果デコーダをベースとした LLM には、もともと若干のランダム性があり、各単語を確率的にサンプリングします。そのため、わずかに異なる回答を複数生成することで、最適なものを見つけられる可能性が高まります。これは、ある経路は行き止まりでも別の経路では隠された宝石が見つかる可能性があることを知ったうえで、複数の経路を探索しているようなものです。

たとえば、LLM に「日本の首都はどこですか?」と質問したとします。「京都が日本の首都でした」「東京は現在の日本の首都です」「東京は日本の首都でした」など、さまざまな回答が返ってくるかもしれません。複数の選択肢を生成することで、最も正確で関連性の高い回答を得る可能性が高まります。

これを実践するために、その金融機関は LLM を使用して、1 つの文字起こしデータに対して 5 つの異なる要約を作成しました。出力のランダム性を制御する LLM の「温度」を 0.2~0.4 の範囲に調整し、トピックから大きく逸脱することなく適切な多様性を実現できるようにしました。これにより、さまざまな選択肢が得られ、高品質の最適な要約が見つかる可能性が高まりました。

ステップ2: 最適な回答を見つける

次に、多様な回答を検索して、最適な回答を特定する必要がありました。これを自動的に行うために、金融機関は Vertex Gen AI Evaluation Service で利用可能なペアワイズ評価アプローチを適用しました。これは、回答同士の直接対決と考えることができます。2 つの回答を対戦させ、元の指示とコンテキストに基づいて判定を行い、ユーザーの意図に最も沿った回答を特定します。

前述の例のように、日本の首都について 3 つの回答が得られたとしましょう。ペアワイズ比較を使用して最適な回答を見つけるとします。

  • 回答 1 と回答 2: API は回答 2 を選びます。その説明はおそらく、「回答 1 は理論的には正しいものの、日本の現在の首都についての質問に直接答えていません」といったようなものでしょう。
  • 回答 2(ここまでの最適な回答)と回答 3: 回答 2 が再度勝ちます。回答 3 は過去形を使用していることで負けになります。
  • これら 2 回の比較の結果、回答 2 が最適な回答であると結論付けられます。

金融機関のケースでは、生成された 5 つの要約を 2 つずつ比較して、最適な要約を選択しました。

ステップ3: 回答が十分適切であるかどうかを評価する

次に、ワークフローは前のステップでトップであった回答(回答 2)を取得し、ポイントワイズ評価サービスを使用してそれを評価します。この評価では、品質スコアを割り当てて、正確性、根拠、有用性などのさまざまな項目で、それらのスコアについて人が読める形式の説明を生成します。このプロセスは、最適な回答を明らかにするだけでなく、モデルがこの回答を生成した理由と、他の回答よりも優れていると見なした理由についての分析情報も提供し、システムの意思決定における信頼性と透明性を高めます。金融機関のケースでは、選ばれた回答に対しポイントワイズ評価の要約関連の指標を使用して、この回答に根拠があり、有用で、高品質である理由の説明を取得しました。最適な回答だけを返すか、関連する品質指標と説明を含めて透明性を高めるかを選択できます。

要するに、このワークフローには(このブログ投稿のバナーで図示しているように)、さまざまな LLM の回答を生成し、それらを体系的に評価し、最も適切な回答を選択することが含まれます。その際、特定の回答を最適と見なした理由についての分析情報も提供されます。まずはサンプル ノートブックをご覧になり、それをご自身のユースケースに合わせて調整してみてください。ペアワイズ評価とポイントワイズ評価の順序を逆にして、ポイントワイズ スコアに基づいて個々の回答をランク付けしてから、上位候補のみでペアワイズ比較を行うこともできます。さらに、この例ではテキストに焦点を当てていますが、このアプローチはあらゆるモダリティに応用でき、このブログ投稿で示したような質問応答や要約にとどまらずあらゆるユースケースに適用できます。最後に、レイテンシを最小限に抑える必要がある場合は、いずれのワークフローでも、さまざまな API 呼び出しを並列化することで大きなメリットが得られます。

次のステップ

LLM 固有の変動性を前向きに受け入れて、Vertex Gen AI Evaluation Service を活用することで、課題をチャンスに変えることができます。多様な回答を生成し、それらを体系的に評価し、明確な説明を含む最適なオプションを選択することで、LLM の能力を最大限に引き出すことができます。このアプローチは、LLM 出力の品質と確実性だけでなく、信頼度と透明性も高めてくれます。サンプル ノートブックでこのアプローチをお試しください。また、Vertex Gen AI Evaluation Service のドキュメントもご覧ください。

-Google、シニアスタッフ ML エンジニア Anant Nawalgaria

-Cloud AI、プロダクト マネージャー Irina Sigler

投稿先