Ajuste de áudio

Esta página fornece pré-requisitos e instruções detalhadas para ajustar o Gemini em dados de áudio usando o aprendizado supervisionado.

Casos de uso

O ajuste de modelos de áudio melhora o desempenho deles ao adaptá-los a necessidades específicas. Isso pode envolver a melhoria do reconhecimento de fala para diferentes sotaques, o ajuste fino da classificação de gêneros musicais, a otimização da detecção de eventos sonoros, a personalização da geração de áudio, a adaptação a ambientes barulhentos, a melhoria da qualidade de áudio e a personalização de experiências de áudio. Confira alguns casos de uso comuns de ajuste de áudio:

  • Assistentes de voz aprimorados:

    • Pedir comida por voz: desenvolver sistemas ativados por voz para pedir e entregar comida com facilidade.
  • Análise de conteúdo de áudio:

    • Transcrição automática: gere transcrições altamente precisas, mesmo em ambientes barulhentos.
    • Resumo de áudio: resuma os pontos principais de podcasts ou audiolivros.
    • Classificação de músicas: categorizar músicas com base no gênero, no humor ou em outras características.
  • Acessibilidade e tecnologias adaptativas:

    • Legendas em tempo real: ofereça legendas ao vivo para eventos ou videochamadas.
    • Aplicativos controlados por voz: desenvolva apps controlados totalmente por voz.
    • Aprendizado de idiomas: crie ferramentas que ofereçam feedback personalizado sobre pronúncia.

Limitações

  • Duração máxima do áudio por exemplo: 10 minutos.
  • Número máximo de arquivos de áudio por exemplo: 1.
  • Tamanho máximo do arquivo de áudio: 20 MB.

Para saber mais sobre os requisitos de amostra de áudio, consulte a página Entendimento de áudio (somente fala).

Formato do conjunto de dados

Confira a seguir um exemplo de conjunto de dados de áudio.

Para conferir o exemplo de formato genérico, consulte Exemplo de conjunto de dados para o Gemini 1.5 Pro e o Gemini 1.5 Flash.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    }, 
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

A seguir