AI & 機械学習

AI の探偵: 「干し草の山の中で針を探す」テストと Gemini 1.5 Pro の手法

2024年9月24日

https://storage.googleapis.com/gweb-cloudblog-publish/images/needle-haystack.max-2600x2600.png

Stephanie Wong

Head of Technical Storytelling

※この投稿は米国時間 2024 年 9 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

巨大な図書館の中に、数えきれないほどの書物がある様子を想像してみてください。一つひとつの書物の中には、言葉やアイデアが複雑に絡み合いながら存在しています。そして、この文字の山から、たった一つの文を探偵が見つけようとしているところを想像してみてください。AI モデルの情報検索能力の限界を測定する「干し草の山の中で針を探す」（Needle in a Haystack）テストは、このような挑戦を AI に課すものです。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_-_Detective.max-2100x2100.png

Imagen 2 を使用して生成。プロンプト: 干し草の山の中で針を探す探偵。探偵は体のほとんどを影に覆われ、虫メガネを持っている。

AI の分野の話ですので、物理的な針を見つけるわけではありません。コンテキストウィンドウ内にある大量のデータから特定の情報を取得する大規模言語モデル（LLM）の能力をテストするということです。これは LLM に高負荷をかけて試すテストであり、データの海にある情報をふるいにかけ、求められている特定の情報を見つける能力が評価されます。

このテストでは、コンテキストウィンドウの中にある特定の情報にたどり着く LLM の能力を測定します。長いコンテキスト（干し草の山）の中にランダムな文（針）を埋め込み、LLM にそれを取得するようにプロンプトで指示します。主な手順は以下のとおりです。

針を差し込む: 長いコンテキストウィンドウの中にランダムな事実または文を配置します。
LLM にプロンプトを与える: 特定の文を取得するようにモデルに指示します。
パフォーマンスを測定する: コンテキストの長さ、ドキュメントの複雑さを変えて繰り返しこれを実行します。
結果を採点する: 詳細なスコアを算出して、平均を計算します。

200 万トークンの課題

AI モデルのコンテキストウィンドウは、短期記憶のようなものです。Google の Gemini 1.5 Pro は、業界トップクラスの 200 万トークンのコンテキストウィンドウに対応しており、これは、約 150 万単語（5,000 ページ分のテキスト量）に相当します。これは、長い入力を理解して対応する必要のある AI アプリケーションに革新をもたらすものです。

ただ、大きなコンテキストウィンドウには課題もあります。情報量が多いと、関係のある詳細情報を特定して焦点を絞ることが難しくなります。そこで、「干し草の山の中で針を探す」テストで再現率を測定したところ、Google の Gemini 1.5 Pro の能力は特に秀でたものであることがわかりました。

Google Gemini 1.5 Pro: 凄腕の探偵

Google DeepMind の研究論文によると、テキスト、動画、音声からなる 100 万トークンまでの大規模なコンテキスト（干し草の山）内で特定の情報（針）を見つけるタスクにおいて、Gemini 1.5 Pro は完璧に近い（>99.7%）再現率を達成できます。コンテキストが増大してもこの驚くべき再現率が衰えることはなく、テキストの場合は 1,000 万トークン、音声の場合は 970 万トークン、動画の場合は 990 万トークンまで再現率が維持されます。これは内部テストであるものの、Gemini 1.5 Pro は 200 万トークンのコンテキストウィンドウ（現時点のモデルプロバイダの中で最大）まで対応できることが示されています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_-_99.7_recall_across_modalities.max-1400x1400.png

100 万トークンまでの「干し草の山」からほぼ完璧な再現率（>99.7%）で「針」を見つける Gemini 1.5 Pro。すべてのモダリティ（テキスト、動画、音声）でこの能力を発揮します。

すべての干し草の山を試す

以下のベンチマークデータから、Gemini 1.5 Pro で達成された画期的進歩をうかがい知ることができます。コンテキストが長いテキスト、動画、音声の処理能力は特に目を見張るものがあります。2024 年 2 月の 1.5 Pro リリースから性能を落としていないだけでなく、前世代の 1.0 Pro および 1.0 Ultra を大幅に上回っています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_-_win_rates.max-900x900.png

Gemini 1.5 Pro の性能比較（2024 年 2 月リリースの Gemini 1.5 Pro、およびその他の Gemini 1.0 ファミリーとの比較）。コンテキストウィンドウが増加しても、Gemini 1.5 Pro は高いパフォーマンスを維持している。

詳しく見てみましょう。

動画の干し草の山: Gemini 1.5 Pro で、10.5 時間の長さの動画に含まれるランダムなフレームから「秘密の言葉」を取得しました。Gemini 1.5 Flash も、200 万トークンまでの動画で完璧に近い再現率（99.8%）を達成しました。なんと、手書きのメモからシーンを特定することもできました。優れたマルチモーダル機能を備えていることがわかります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/4_-_Video_haystack.max-1000x1000.png

バスターキートンの 45 分の映画『キートンの探偵学入門』（1924 年）（1FPS で 2,674 フレーム、68.4 万トークン）を対象として、Gemini 1.5 Pro にプロンプトを与えた結果。特定のフレームから文字情報が取得、抽出され、対応するタイムスタンプも提示されている。右下で、手書きのメモから映画内のシーンを特定できていることがわかる。

さまざまな領域での応用が期待され、たとえば、長い手術記録の分析など医療分野での応用、試合中の動きやけがの分析といったスポーツ分野での応用、動画編集のプロセスを効率化するためのコンテンツ制作分野での応用が考えられます。

音声ファイルの干し草の山: Gemini 1.5 Pro と Gemini 1.5 Flash の両方が、最大 107 時間（およそ 5 日）の長さの音声信号内から秘密のキーワードを取得するタスクで 100% の精度を達成しました。これは、ノイズの多い環境の音声文字起こしや字幕の精度向上、法的な会話の録音に含まれるキーワードの特定、カスタマーサポートの通話の感情分析に役立てることができるはずです。

マルチラウンド共参照解決（MRCR）: MRCR テストでは、長いマルチターンの会話で AI モデルに対して変化球をぶつけ、それまでの会話で提供された回答を AI モデルに再現させます。これは、何日も前の会話の中で言ったことを具体的に記憶しておいてもらうようなものであり、人間にとっても難しいタスクです。Gemini 1.5 Pro と Gemini 1.5 Flash は優れた結果を示し、コンテキストウィンドウが 100 万の場合でも 75% の精度を維持できました。これは、長期間にまたがる推論、曖昧さの解消、コンテキスト情報の維持における両モデルの能力を示すものです。

この機能は実世界でも大きな意味を持ちます。AI システムがユーザーと長期間やり取りし、コンテキスト情報を維持して正確な回答を提供する必要があるシナリオでは特にそうでしょう。たとえばカスタマーサービス chatbot などです。こうした chatbot は、過去のやり取りを参照して一貫性のある正確な情報を提供し、複雑で入り組んだ問い合わせに対応できることが求められます。

干し草の山の中で複数の針を探す: 干し草の山の中から 1 本の針を見つけるだけでもすばらしい能力ですが、Gemini 1.5 は、干し草の山から複数の針を見つけるという困難なタスクも達成できます。100 万トークンの場合でも、Gemini 1.5 Pro は 60% という驚異的な再現率を達成しています。針が 1 本のときと比較すると、確かにパフォーマンスはわずかに低下しています。ただ、ノイズの多くなりがちな大規模なデータセットから複数の情報を特定して抽出するという、より複雑な取得シナリオに対応できるモデルの能力が示されています。

GPT-4 との比較: 100 本の異なる針をシングルターンで見つける必要がある「干し草の中で複数の針を探す」タスクに関して言えば、Gemini 1.5 Pro のパフォーマンスは GPT-4 よりも優れています。Gemini 1.5 Pro は 100 万トークンまで高い再現率（>99.7%）を維持しており、1,000 万トークンでも相当のパフォーマンス（99.2% の再現率）を示しています。一方で GPT-4 Turbo の場合、コンテキストの長さに 12.8 万トークンの制限があります。このタスクでの GPT-4 Turbo のパフォーマンスは、コンテキストが長くなると「大きく変動」し、コンテキストの長さの上限付近では再現率の平均が 50% 程度になります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/5_-_gpt_comparison.max-900x900.png

100 個の異なる針をシングルターンで取得する必要がある「干し草の中で複数の針を探す」タスクにおける取得パフォーマンス。Gemini 1.5 Pro を GPT-4 Turbo を比較すると、短いコンテキストで再現率が高いことがわかる。また、100 万トークンまでの増加に伴う再現率の低下はきわめて小さいことがわかる。

Gemini 1.5 Pro の秘密兵器

Gemini 1.5 Pro が凄腕の探偵である理由は何でしょうか。それは、高度なアーキテクチャ、マルチモーダル機能、革新的トレーニング手法の組み合わせです。Transformer アーキテクチャに基づく Mixture of Experts（MoE）モデルを使用して、アーキテクチャが大幅に変更されています。MoE モデルは、ルーティング学習機能（探偵事務所の配車係のようなもの）を使用して、入力データのさまざまな部分をモデル内の専用コンポーネントに誘導します。これにより、モデルの全体としての機能を拡張しつつ、特定のタスクに必要なリソースのみが使用されるようにすることができます。

AI の未来: さらに巨大な干し草の山の中で針を見つける

AI の真の尺度は、情報を処理する能力だけではありません。会話の内容を理解し、有意義に進める能力も重要です。今回の「干し草の山の中で針を探す」テストからは、Gemini 1.5 Pro と Gemini 1.5 Flash が、最も複雑で長いダイアログにも対応する、可能性の限界を押し広げる能力を持つことがわかりました。これは、単に回答を生成するということではありません。複数のモダリティにまたがって内容を理解し、つなげるということです。これは、機械であることを感じさせない、真に知的な会話のパートナーのような AI へと向かう大きな一歩です。

Vertex AI で、Gemini 1.5 Pro の 200 万トークンのコンテキストウィンドウを今すぐ試して、「干し草の山の中で針を探す」テストをご自身で行ってみてください。

-技術ストーリーテリング責任者 Stephanie Wong

投稿先