音频调谐

本页面提供了使用监督学习对 Gemini 进行音频数据微调的先决条件和详细说明。

使用场景

通过调优音频模型，可以根据特定需求调整模型，从而提高其性能。这可能涉及改进对不同口音的语音识别、微调音乐类型分类、优化声音事件检测、自定义音频生成、适应嘈杂的环境、提高音频质量以及个性化音频体验。以下是一些常见的音频调谐用例：

增强型语音助理：
- 语音订餐：开发语音触发系统，以便顺畅地订餐和送餐。
音频内容分析：
- 自动转录：即使在嘈杂的环境中，也能生成高度准确的转录内容。
- 音频摘要：总结播客或有声读物中的要点。
- 音乐分类：根据流派、曲调或其他特征对音乐进行分类。
无障碍功能和辅助技术：
- 实时字幕：为活动或视频通话提供实时字幕。
- 语音控制应用：开发完全由语音控制的应用。
- 语言学习：创建可提供个性化发音反馈的工具。

限制

Gemini 2.5 模型

规范	值
每个选段的音频时长上限	60 分钟
每个选段的音频文件数量上限	1
音频文件大小上限	100MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

规范	值
每个选段的音频时长上限	60 分钟
每个选段的音频文件数量上限	1
音频文件大小上限	100MB

如需详细了解音频选段要求，请参阅音频理解（仅限语音）页面。

数据集格式

数据集的 fileUri 可以是 Cloud Storage 存储桶中文件的 URI，也可以是可公开访问的 HTTP 或 HTTPS 网址。

如需查看通用格式示例，请参阅适用于 Gemini 的数据集示例。

以下是音频数据集的示例。

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

后续步骤

如需详细了解 Gemini 音频理解模型，请参阅音频理解（仅限语音）。
如需开始调优，请参阅使用监督式微调来调优 Gemini 模型。
如需了解如何在构建生成式 AI 知识库的解决方案中使用监督式微调，请参阅快速起步解决方案：生成式 AI 知识库。