音訊微調

本頁面提供先決條件和詳細操作說明,協助您使用監督式學習,根據音訊資料微調 Gemini。

用途

調整音訊模型可根據特定需求量身打造,進而提升模型效能。這可能包括提升不同口音的語音辨識能力、微調音樂類型分類、改善聲響事件偵測功能、自訂音訊生成、適應吵雜環境、提升音訊品質,以及提供個人化音訊體驗。以下是一些常見的音訊調整用途:

  • 加強型語音助理

    • 語音訂餐:開發聲控系統,讓使用者輕鬆訂餐和外送。
  • 音訊內容分析

    • 自動轉錄:即使在吵雜的環境中,也能產生準確度極高的轉錄稿。
    • 音訊摘要:歸納 Podcast 或有聲書的重點。
    • 音樂分類:根據類型、情境或其他特徵分類音樂。
  • 無障礙功能和輔助技術

    • 即時字幕:為活動或視訊通話提供即時字幕。
    • 語音控制應用程式:開發完全由語音控制的應用程式。
    • 語言學習:建立可針對發音提供個人化意見回饋的工具。

限制

Gemini 2.5 模型

規格
每個範例的音訊長度上限 60 分鐘
每個範例的音訊檔案數量上限 1
音訊檔案大小上限 100MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

規格
每個範例的音訊長度上限 60 分鐘
每個範例的音訊檔案數量上限 1
音訊檔案大小上限 100MB

如要進一步瞭解音訊樣本規定,請參閱「瞭解音訊 (僅限語音)」頁面。

資料集格式

資料集的 fileUri 可以是 Cloud Storage 值區中檔案的 URI,也可以是公開的 HTTP 或 HTTPS 網址。

如要查看一般格式範例,請參閱「Gemini 的資料集範例」。

以下是音訊資料集的範例。

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

後續步驟