本頁面由 Cloud Translation API 翻譯而成。

音訊微調

本頁面提供先決條件和詳細操作說明，協助您使用監督式學習，根據音訊資料微調 Gemini。

用途

調整音訊模型可根據特定需求量身打造，進而提升模型效能。這可能包括提升不同口音的語音辨識能力、微調音樂類型分類、改善聲響事件偵測功能、自訂音訊生成、適應吵雜環境、提升音訊品質，以及提供個人化音訊體驗。以下是一些常見的音訊調整用途：

加強型語音助理：
- 語音訂餐：開發聲控系統，讓使用者輕鬆訂餐和外送。
音訊內容分析：
- 自動轉錄：即使在吵雜的環境中，也能產生準確度極高的轉錄稿。
- 音訊摘要：歸納 Podcast 或有聲書的重點。
- 音樂分類：根據類型、情境或其他特徵分類音樂。
無障礙功能和輔助技術：
- 即時字幕：為活動或視訊通話提供即時字幕。
- 語音控制應用程式：開發完全由語音控制的應用程式。
- 語言學習：建立可針對發音提供個人化意見回饋的工具。

限制

Gemini 2.5 模型

規格	值
每個範例的音訊長度上限	60 分鐘
每個範例的音訊檔案數量上限	1
音訊檔案大小上限	100MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

規格	值
每個範例的音訊長度上限	60 分鐘
每個範例的音訊檔案數量上限	1
音訊檔案大小上限	100MB

如要進一步瞭解音訊樣本規定，請參閱「瞭解音訊 (僅限語音)」頁面。

資料集格式

資料集的 fileUri 可以是 Cloud Storage 值區中檔案的 URI，也可以是公開的 HTTP 或 HTTPS 網址。

如要查看一般格式範例，請參閱「Gemini 的資料集範例」。

以下是音訊資料集的範例。

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

後續步驟

如要進一步瞭解 Gemini 音訊理解模型，請參閱「音訊理解 (僅限語音)」。
如要開始調整，請參閱「使用監督式微調功能調整 Gemini 模型」。
如要瞭解如何將監督式微調用於建構生成式 AI 知識庫的解決方案，請參閱「快速部署解決方案：生成式 AI 知識庫」。

音訊微調

用途

限制

Gemini 2.5 模型

Gemini 2.0 FlashGemini 2.0 Flash-Lite

資料集格式

後續步驟

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite