Gemini 2.5 Flash Live API 原生音訊

Gemini 2.5 Flash 搭配 Live API 原生音訊功能,可為 Live API 提供最先進的原生音訊功能。除了標準 Live API 功能外,這個預覽版模型還包含:

  • 提升音質:音質大幅提升,彷彿與真人對話。
  • 提升語音品質和適應性:Live API 原生音訊提供更豐富、自然的語音互動,支援 30 種 HD 高解析度語音,以及 24 種語言
  • 推出主動式音訊 啟用主動式音訊後,模型只會在適當的時機回覆。模型只會主動為導向裝置的查詢生成文字轉錄稿和語音回覆,不會回應非導向裝置的查詢。
  • 推出情緒對話:使用 Live API 原生音訊的模型可以理解使用者的情緒表達,並適當回應,讓對話更細膩。
  • 改良插話功能:即使在吵雜的環境中,也能更自然可靠地打斷 Gemini 的回覆。
  • 強大的函式呼叫功能:我們提升了觸發率,讓 Gemini 能夠成功執行您定義的函式,支援您的用途。
  • 準確的轉錄內容:音訊轉文字的轉錄準確度大幅提升。
  • 流暢的多語言支援:以多種語言與 Gemini 對話,Gemini 會輕鬆切換語言,無需預先設定。語言不再是障礙。

如要進一步瞭解 Live API,請參閱:

Vertex AI 中試用

模型 ID gemini-live-2.5-flash-preview-native-audio-09-2025
支援的輸入和輸出
  • 輸入內容:
    文字音訊影片
  • 輸出內容:
    文字音訊
權杖限制
  • 輸入符記數量上限:128,000 個
  • 輸出內容符記數量上限:64,000 個
  • 脈絡窗口:3.2 萬個詞元 (預設),可升級至 12.8 萬個詞元
功能
用途類型
技術規格
影片
  • 標準解析度: 768 x 768
  • 支援的 MIME 類型:
    video/x-flvvideo/quicktimevideo/mpegvideo/mpegsvideo/mpgvideo/mp4video/webmvideo/wmvvideo/3gpp
音訊
  • 對話長度上限: 預設為 10 分鐘,可延長
  • 必要音訊輸入格式: 16 kHz 的原始 16 位元 PCM 音訊,小端序
  • 必要音訊輸出格式: 24 kHz 的原始 16 位元 PCM 音訊 (小端序)
  • 支援的 MIME 類型:
    audio/x-aacaudio/flacaudio/mp3audio/m4aaudio/mpegaudio/mpgaaudio/mp4audio/oggaudio/pcmaudio/wavaudio/webm
參數預設值
  • 語音感測起始處:低
  • 語音感測結束處:高
  • 前置靜音充填:0
  • 脈絡長度上限:128,000 個符記
支援的地區

模型適用情形

  • 美國
    • us-central1
詳情請參閱「資料落地」。
知識截點日期 2025 年 1 月
版本
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • 推出階段:公開測試
    • 發布日期:2025 年 9 月 18 日
  • gemini-live-2.5-flash-preview-native-audio
    • 推出階段:公開測試
    • 發布日期:2025 年 6 月 17 日
    • 終止日期:2025 年 10 月 18 日
安全性控管
詳情請參閱安全控管措施
支援的語言 請參閱「支援的語言」。
定價 請參閱定價