Esta página fornece pré-requisitos e instruções detalhadas para ajustar o Gemini em dados de áudio usando o aprendizado supervisionado.
Casos de uso
O ajuste de modelos de áudio melhora o desempenho deles ao adaptá-los a necessidades específicas. Isso pode envolver a melhoria do reconhecimento de fala para diferentes sotaques, o ajuste fino da classificação de gêneros musicais, a otimização da detecção de eventos sonoros, a personalização da geração de áudio, a adaptação a ambientes barulhentos, a melhoria da qualidade de áudio e a personalização de experiências de áudio. Confira alguns casos de uso comuns de ajuste de áudio:
Assistentes de voz aprimorados:
- Pedir comida por voz: desenvolver sistemas ativados por voz para pedir e entregar comida com facilidade.
 
Análise de conteúdo de áudio:
- Transcrição automática: gere transcrições altamente precisas, mesmo em ambientes barulhentos.
 - Resumo de áudio: resuma os pontos principais de podcasts ou audiolivros.
 - Classificação de músicas: categorizar músicas com base no gênero, no humor ou em outras características.
 
Acessibilidade e tecnologias adaptativas:
- Legendas em tempo real: ofereça legendas ao vivo para eventos ou videochamadas.
 - Aplicativos controlados por voz: desenvolva apps controlados totalmente por voz.
 - Aprendizado de idiomas: crie ferramentas que ofereçam feedback personalizado sobre pronúncia.
 
Limitações
Modelos do Gemini 2.5
| Especificação | Valor | 
|---|---|
| Duração máxima do áudio por exemplo | 60 minutos | 
| Número máximo de arquivos de áudio por exemplo | 1 | 
| Tamanho máximo do arquivo de áudio | 100MB | 
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
      | Especificação | Valor | 
|---|---|
| Duração máxima do áudio por exemplo | 60 minutos | 
| Número máximo de arquivos de áudio por exemplo | 1 | 
| Tamanho máximo do arquivo de áudio | 100MB | 
Para saber mais sobre os requisitos de amostra de áudio, consulte a página Entendimento de áudio (somente fala).
Formato do conjunto de dados
O fileUri do conjunto de dados pode ser o URI de um arquivo em um bucket do Cloud Storage ou um URL HTTP ou HTTPS disponível publicamente.
Para conferir o exemplo de formato genérico, consulte Exemplo de conjunto de dados para o Gemini.
Confira a seguir um exemplo de conjunto de dados de áudio.
{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}
A seguir
- Para saber mais sobre o modelo de entendimento de áudio do Gemini, consulte Entendimento de áudio (somente fala).
 - Para começar a ajustar, consulte Ajustar modelos do Gemini usando o ajuste supervisionado de detalhes.
 - Para saber como o ajuste supervisionado de detalhes pode ser usado em uma solução que cria uma base de conhecimento de IA generativa, consulte Solução de início rápido: base de conhecimento de IA generativa.