English
Deutsch
Español
Español – América Latina
Français
Indonesia
Italiano
Português
Português – Brasil
中文 – 简体
中文 – 繁體
日本語
한국어

控制台

聯絡我們免費試用

本頁面由 Cloud Translation API 翻譯而成。

Gemini 2.5 Flash Live API 原生音訊

Gemini 2.5 Flash 搭配 Live API 原生音訊功能，可為 Live API 提供最先進的原生音訊功能。除了標準 Live API 功能外，這個預覽版模型還包含：

提升音質：音質大幅提升，彷彿與真人對話。
提升語音品質和適應性：Live API 原生音訊提供更豐富、自然的語音互動，支援 30 種 HD 高解析度語音，以及 24 種語言。
推出主動式音訊： 啟用主動式音訊後，模型只會在適當的時機回覆。模型只會主動為導向裝置的查詢生成文字轉錄稿和語音回覆，不會回應非導向裝置的查詢。
推出情緒對話：使用 Live API 原生音訊的模型可以理解使用者的情緒表達，並適當回應，讓對話更細膩。
改良插話功能：即使在吵雜的環境中，也能更自然可靠地打斷 Gemini 的回覆。
強大的函式呼叫功能：我們提升了觸發率，讓 Gemini 能夠成功執行您定義的函式，支援您的用途。
準確的轉錄內容：音訊轉文字的轉錄準確度大幅提升。
流暢的多語言支援：以多種語言與 Gemini 對話，Gemini 會輕鬆切換語言，無需預先設定。語言不再是障礙。

如要進一步瞭解 Live API，請參閱：

在 Vertex AI 中試用

技術規格
模型 ID	`gemini-live-2.5-flash-preview-native-audio-09-2025`
支援的輸入和輸出	輸入內容：文字、音訊、影片輸出內容：文字、音訊
權杖限制	輸入符記數量上限：128,000 個輸出內容符記數量上限：64,000 個脈絡窗口：3.2 萬個詞元 (預設)，可升級至 12.8 萬個詞元
功能	支援以 Google 搜尋建立基準系統指示函式呼叫 Live API 預先發布版功能不支援程式碼執行調整結構化輸出內容思考 Vertex AI RAG 引擎 Chat completions
用途類型	支援最多 1000 個並行工作階段佈建輸送量不支援動態共用配額批次預測
	影片	標準解析度： 768 x 768 支援的 MIME 類型： `video/x-flv`、 `video/quicktime`、 `video/mpeg`、 `video/mpegs`、 `video/mpg`、 `video/mp4`、 `video/webm`、 `video/wmv`、 `video/3gpp`
	音訊	對話長度上限：預設為 10 分鐘，可延長。必要音訊輸入格式： 16 kHz 的原始 16 位元 PCM 音訊，小端序必要音訊輸出格式： 24 kHz 的原始 16 位元 PCM 音訊 (小端序) 支援的 MIME 類型： `audio/x-aac`、 `audio/flac`、 `audio/mp3`、 `audio/m4a`、 `audio/mpeg`、 `audio/mpga`、 `audio/mp4`、 `audio/ogg`、 `audio/pcm`、 `audio/wav`、 `audio/webm`
	參數預設值	語音感測起始處：低語音感測結束處：高前置靜音充填：0 脈絡長度上限：128,000 個符記
支援的地區
	模型適用情形	美國 us-central1
	詳情請參閱「資料落地」。
知識截點日期	2025 年 1 月
版本	`gemini-live-2.5-flash-preview-native-audio-09-2025` 推出階段：公開測試發布日期：2025 年 9 月 18 日 `gemini-live-2.5-flash-preview-native-audio` 推出階段：公開測試發布日期：2025 年 6 月 17 日終止日期：2025 年 10 月 18 日
安全性控管
安全性控管	詳情請參閱安全控管措施。
支援的語言	請參閱「支援的語言」。
定價	請參閱定價。

除非另有註明，否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權，程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。

上次更新時間：2025-10-19 (世界標準時間)。