Esta página fornece pré-requisitos e instruções detalhadas para ajustar o Gemini em dados de áudio usando o aprendizado supervisionado.
Casos de uso
O ajuste de modelos de áudio melhora o desempenho deles ao adaptá-los a necessidades específicas. Isso pode envolver a melhoria do reconhecimento de fala para diferentes sotaques, o ajuste fino da classificação de gêneros musicais, a otimização da detecção de eventos sonoros, a personalização da geração de áudio, a adaptação a ambientes barulhentos, a melhoria da qualidade de áudio e a personalização de experiências de áudio. Confira alguns casos de uso comuns de ajuste de áudio:
Assistentes de voz aprimorados:
- Pedir comida por voz: desenvolver sistemas ativados por voz para pedir e entregar comida com facilidade.
Análise de conteúdo de áudio:
- Transcrição automática: gere transcrições altamente precisas, mesmo em ambientes barulhentos.
- Resumo de áudio: resuma os pontos principais de podcasts ou audiolivros.
- Classificação de músicas: categorizar músicas com base no gênero, no humor ou em outras características.
Acessibilidade e tecnologias adaptativas:
- Legendas em tempo real: ofereça legendas ao vivo para eventos ou videochamadas.
- Aplicativos controlados por voz: desenvolva apps controlados totalmente por voz.
- Aprendizado de idiomas: crie ferramentas que ofereçam feedback personalizado sobre pronúncia.
Limitações
- Duração máxima do áudio por exemplo: 10 minutos.
- Número máximo de arquivos de áudio por exemplo: 1.
- Tamanho máximo do arquivo de áudio: 20 MB.
Para saber mais sobre os requisitos de amostra de áudio, consulte a página Entendimento de áudio (somente fala).
Formato do conjunto de dados
Confira a seguir um exemplo de conjunto de dados de áudio.
Para conferir o exemplo de formato genérico, consulte Exemplo de conjunto de dados para o Gemini 1.5 Pro e o Gemini 1.5 Flash.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
A seguir
- Para saber mais sobre o modelo de entendimento de áudio do Gemini, consulte Entendimento de áudio (somente fala).
- Para começar a ajustar, consulte Ajustar modelos do Gemini usando ajuste supervisionado de detalhes.
- Para saber como o ajuste supervisionado de detalhes pode ser usado em uma solução que cria uma base de conhecimento de IA generativa, consulte Solução de início rápido: base de conhecimento de IA generativa.