Esta página foi traduzida pela API Cloud Translation.

Ajuste de áudio

Esta página fornece pré-requisitos e instruções detalhadas para ajustar o Gemini em dados de áudio usando o aprendizado supervisionado.

Casos de uso

O ajuste de modelos de áudio melhora o desempenho deles ao adaptá-los a necessidades específicas. Isso pode envolver a melhoria do reconhecimento de fala para diferentes sotaques, o ajuste fino da classificação de gêneros musicais, a otimização da detecção de eventos sonoros, a personalização da geração de áudio, a adaptação a ambientes barulhentos, a melhoria da qualidade de áudio e a personalização de experiências de áudio. Confira alguns casos de uso comuns de ajuste de áudio:

Assistentes de voz aprimorados:
- Pedir comida por voz: desenvolver sistemas ativados por voz para pedir e entregar comida com facilidade.
Análise de conteúdo de áudio:
- Transcrição automática: gere transcrições altamente precisas, mesmo em ambientes barulhentos.
- Resumo de áudio: resuma os pontos principais de podcasts ou audiolivros.
- Classificação de músicas: categorizar músicas com base no gênero, no humor ou em outras características.
Acessibilidade e tecnologias adaptativas:
- Legendas em tempo real: ofereça legendas ao vivo para eventos ou videochamadas.
- Aplicativos controlados por voz: desenvolva apps controlados totalmente por voz.
- Aprendizado de idiomas: crie ferramentas que ofereçam feedback personalizado sobre pronúncia.

Limitações

Modelos do Gemini 2.5

Especificação	Valor
Duração máxima do áudio por exemplo	60 minutos
Número máximo de arquivos de áudio por exemplo	1
Tamanho máximo do arquivo de áudio	100MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Especificação	Valor
Duração máxima do áudio por exemplo	60 minutos
Número máximo de arquivos de áudio por exemplo	1
Tamanho máximo do arquivo de áudio	100MB

Para saber mais sobre os requisitos de amostra de áudio, consulte a página Entendimento de áudio (somente fala).

Formato do conjunto de dados

O fileUri do conjunto de dados pode ser o URI de um arquivo em um bucket do Cloud Storage ou um URL HTTP ou HTTPS disponível publicamente.

Para conferir o exemplo de formato genérico, consulte Exemplo de conjunto de dados para o Gemini.

Confira a seguir um exemplo de conjunto de dados de áudio.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

A seguir

Para saber mais sobre o modelo de entendimento de áudio do Gemini, consulte Entendimento de áudio (somente fala).
Para começar a ajustar, consulte Ajustar modelos do Gemini usando o ajuste supervisionado de detalhes.
Para saber como o ajuste supervisionado de detalhes pode ser usado em uma solução que cria uma base de conhecimento de IA generativa, consulte Solução de início rápido: base de conhecimento de IA generativa.