本页面提供了使用监督学习对 Gemini 进行音频数据微调的先决条件和详细说明。
使用场景
通过调优音频模型,可以根据特定需求调整模型,从而提高其性能。这可能涉及改进对不同口音的语音识别、微调音乐类型分类、优化声音事件检测、自定义音频生成、适应嘈杂的环境、提高音频质量以及个性化音频体验。以下是一些常见的音频调谐用例:
增强型语音助理:
- 语音订餐:开发语音触发系统,以便顺畅地订餐和送餐。
音频内容分析:
- 自动转录:即使在嘈杂的环境中,也能生成高度准确的转录内容。
- 音频摘要:总结播客或有声读物中的要点。
- 音乐分类:根据流派、曲调或其他特征对音乐进行分类。
无障碍功能和辅助技术:
- 实时字幕:为活动或视频通话提供实时字幕。
- 语音控制应用:开发完全由语音控制的应用。
- 语言学习:创建可提供个性化发音反馈的工具。
限制
- 每个示例的音频时长上限:10 分钟。
- 每个示例的音频文件数量上限:1。
- 音频文件大小上限:20MB。
如需详细了解音频示例要求,请参阅音频理解(仅限语音)页面。
数据集格式
以下是音频数据集示例。
如需查看通用格式示例,请参阅适用于 Gemini 1.5 Pro 和 Gemini 1.5 Flash 的数据集示例。
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
后续步骤
- 如需详细了解 Gemini 音频理解模型,请参阅音频理解(仅限语音)
- 如需开始调优,请参阅使用监督式微调来调优 Gemini 模型
- 如需了解如何在构建生成式 AI 知识库的解决方案中使用监督式微调,请参阅快速起步解决方案:生成式 AI 知识库。