Gemini 的脈絡窗口預設支援 100 萬個詞元。 過去,大型語言模型 (LLM) 一次可傳遞給模型的文字 (或權杖) 數量受到大幅限制。Gemini 的脈絡窗口很長,且近乎完美地擷取資訊 (超過 99%),因此可支援許多新的用途和開發人員範例。
您已用於內容生成或多模態輸入等用途的程式碼,可直接搭配長脈絡使用。
本指南將簡要介紹脈絡窗口的基本概念、開發人員應如何看待長脈絡、長脈絡的各種實際用途,以及如何最佳化長脈絡的使用方式。
什麼是脈絡窗口?
使用 Gemini 模型的基本方式是將資訊 (脈絡) 傳遞至模型,模型隨後會生成回覆。脈絡窗口類似於短期記憶。人的短期記憶體可儲存的資訊量有限,生成模型也是如此。
如要進一步瞭解模型運作方式,請參閱生成模型指南。
開始使用長內容
過去幾年建立的大多數生成模型一次只能處理 8,000 個權杖。新版模型更進一步,可接受 32,000 個或 128,000 個權杖。Gemini 是第一個能夠接受 100 萬個權杖的模型,現在Gemini 1.5 Pro 更能接受 200 萬個權杖。
實務上,100 萬個權杖會顯示為:
- 50,000 行程式碼 (每行標準 80 個半形字元)
- 過去 5 年內傳送的所有簡訊
- 8 本平均長度的英文小說
- 超過 200 集平均長度的 Podcast 轉錄稿
雖然模型可以接受越來越多的脈絡,但許多使用大型語言模型的傳統智慧都假設模型有這種固有限制,而這在 2024 年已不再適用。
以下是幾種常見策略,可因應小型內容視窗的限制:
- 任意從脈絡視窗中捨棄舊訊息 / 文字,並加入新文字
- 在內容視窗即將填滿時,總結先前的內容並以摘要取代
- 搭配使用 RAG 和語意搜尋,將資料移出脈絡窗口並移入向量資料庫
- 使用確定性或生成式篩選器,從提示中移除特定文字/字元,以節省權杖
雖然在某些情況下,這些做法仍適用,但現在的預設做法是將所有權杖放入脈絡窗口。由於 Gemini 模型專為長篇幅的脈絡窗口而打造,因此更擅長進行脈絡內學習。舉例來說,在只提供教學資料 (500 頁的參考文法、字典和約 400 個額外的平行句子) 的情況下,Gemini 1.5 Pro 和 Gemini 1.5 Flash 能夠學會將英文翻譯成卡拉芒文。卡拉芒文是巴布亞語言,使用者不到 200 人,因此幾乎沒有網路資源。但 Gemini 1.5 Pro 和 Gemini 1.5 Flash 的翻譯品質,與使用相同教材學習的人類不相上下。
這個例子強調了您如何開始思考 Gemini 的長上下文和情境內學習功能可以實現哪些目標。
長脈絡用途
雖然大多數生成式模型的標準用途仍是輸入文字,但 Gemini 模型系列可支援全新的多模態用途。這些模型可原生理解文字、影片、音訊和圖片。為方便起見,我們也提供Vertex AI Gemini API,可接受多模態檔案類型。
長篇文字
事實證明,文字是智慧層,可做為 LLM 發展動能的基礎。如前文所述,LLM 的許多實用限制,都是因為沒有足夠大的內容視窗來執行特定工作。這促使檢索增強生成 (RAG) 和其他技術迅速普及,這些技術可動態提供模型相關情境資訊。現在,隨著脈絡窗口越來越大 (目前 Gemini 1.5 Pro 最多可支援 200 萬個詞元),我們也推出新技術,進而開創新的用途。
文字型長背景資訊的新興和標準用途包括:
- 生成大量文字的摘要
- 如果使用脈絡較小的模型,先前的摘要選項需要滑動視窗或其他技術,才能在將新權杖傳遞至模型時,保留先前章節的狀態
- 問答
- 由於背景資訊量有限,且模型的事實回憶能力較低,因此過去只有 RAG 才能做到這一點
- 代理工作流程
- 文字是代理程式維持狀態的基礎,可記錄已完成的工作和待辦事項;如果缺乏世界和代理程式目標的相關資訊,代理程式的可靠性就會受到限制
大量樣本情境內學習是長脈絡模型最獨特的功能之一。研究顯示,採用常見的「單樣本」或「多樣本」範例範式,向模型呈現一或多個工作範例,並將範例擴展至數百、數千,甚至數十萬個,可帶來全新的模型功能。研究結果也顯示,這種多樣本方法與針對特定工作微調的模型效能相近。如果 Gemini 模型在某些用途上的效能還不足以用於正式版,可以嘗試多樣本方法。如您稍後在「長內容最佳化」一節中瞭解,內容快取可大幅降低這類高輸入權杖工作負載的成本,在某些情況下甚至能縮短延遲時間。
長篇影片
長期以來,由於影片本身缺乏無障礙功能,影片內容的實用性受到限制。難以快速瀏覽內容、轉錄稿經常無法捕捉影片的細微差異,而且大多數工具不會同時處理圖片、文字和音訊。Gemini 的長文脈文字功能可解讀多模態輸入內容,並回答相關問題,且效能穩定。
影片長背景資訊的新興和標準應用實例包括:
- 影片問答
- 影片記憶體,如 Google 的 Project Astra 所示
- 影片字幕
- 影片推薦系統,透過新的多模態理解功能豐富現有中繼資料
- 影片客製化:查看資料和相關影片中繼資料,然後移除與觀眾無關的影片部分
- 影片內容審查
- 即時影片處理
處理影片時,請務必考量影片如何轉換為權杖,這會影響帳單和用量限制。如要進一步瞭解如何使用影片檔案提示,請參閱提示指南。
長篇音訊
Gemini 模型是首批可解讀音訊的本質多模態大型語言模型。過去,開發人員通常會將多個特定領域的模型 (例如語音轉文字模型和文字轉文字模型) 串連在一起,藉此處理音訊。這導致執行多個往返要求時需要額外延遲,且多個模型設定的架構中斷,通常會導致效能降低。
在標準音訊大海撈針評估中,Gemini 1.5 Pro 能夠在 100% 的測試中找到隱藏音訊,Gemini 1.5 Flash 則能在 98.7% 的測試中找到隱藏音訊。 Gemini 1.5 Flash 單次要求最多可接受 9.5 小時的音訊,而 Gemini 1.5 Pro 則可透過 200 萬個詞元的脈絡窗口,接受最多 19 小時的音訊。此外,在 15 分鐘的音訊片段測試集中,Gemini 1.5 Pro 的字詞錯誤率 (WER) 約為 5.5%,甚至比專門的語音轉文字模型還低,且無需額外的輸入區隔和前置處理,複雜度較低。
音訊背景資訊的新興和標準用途包括:
- 即時語音轉錄和翻譯
- Podcast / 影片問答
- 會議語音轉錄和摘要
- 語音助理
如要進一步瞭解如何使用音訊檔案提示,請參閱提示指南。
長背景資訊最佳化
使用長脈絡和 Gemini 模型時,主要最佳化方式是使用脈絡快取。除了先前無法在單一要求中處理大量權杖,另一個主要限制是成本。假設您有一個「與資料對話」應用程式,使用者上傳了 10 份 PDF、一部影片和一些工作文件,您過去必須使用較複雜的檢索增強生成 (RAG) 工具/架構來處理這些要求,並支付大量代幣費用,才能將資料移至內容視窗。現在您可以快取使用者上傳的檔案,並按小時付費儲存這些檔案。每個要求的輸入 / 輸出費用低於標準輸入 / 輸出費用,因此如果使用者與資料互動的次數夠多,您身為開發人員就能大幅節省費用。
長脈絡限制
在本指南的各個章節中,我們討論了 Gemini 模型如何在各種大海撈針檢索評估中,展現優異的效能。這些測試會考量最基本的設定,也就是您要尋找單一針頭。如果您要尋找多個「針」或特定資訊,模型的準確度會降低。視情況而定,效能可能會大幅變動。 請務必考慮這點,因為擷取正確資訊和成本之間存在固有的取捨關係。單一查詢的準確率可達 99%,但每次發出查詢時,都必須支付輸入權杖費用。因此,如要擷取 100 筆資訊,且需要 99% 的效能,您可能需要傳送 100 個要求。這就是一個很好的例子,說明內容快取如何大幅降低使用 Gemini 模型相關的成本,同時維持高效能。