音频调谐

本页面提供了使用监督学习对 Gemini 进行音频数据微调的先决条件和详细说明。

使用场景

通过调优音频模型,可以根据特定需求调整模型,从而提高其性能。这可能涉及改进对不同口音的语音识别、微调音乐类型分类、优化声音事件检测、自定义音频生成、适应嘈杂的环境、提高音频质量以及个性化音频体验。以下是一些常见的音频调谐用例:

  • 增强型语音助理

    • 语音订餐:开发语音触发系统,以便顺畅地订餐和送餐。
  • 音频内容分析

    • 自动转录:即使在嘈杂的环境中,也能生成高度准确的转录内容。
    • 音频摘要:总结播客或有声读物中的要点。
    • 音乐分类:根据流派、曲调或其他特征对音乐进行分类。
  • 无障碍功能和辅助技术

    • 实时字幕:为活动或视频通话提供实时字幕。
    • 语音控制应用:开发完全由语音控制的应用。
    • 语言学习:创建可提供个性化发音反馈的工具。

限制

  • 每个示例的音频时长上限:10 分钟。
  • 每个示例的音频文件数量上限:1。
  • 音频文件大小上限:20MB。

如需详细了解音频示例要求,请参阅音频理解(仅限语音)页面。

数据集格式

以下是音频数据集示例。

如需查看通用格式示例,请参阅适用于 Gemini 1.5 Pro 和 Gemini 1.5 Flash 的数据集示例

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    }, 
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

后续步骤