Esta página fornece pré-requisitos e instruções detalhadas para o ajuste preciso do Gemini em dados de áudio através da aprendizagem supervisionada.
Exemplos de utilização
A otimização dos modelos de áudio melhora o respetivo desempenho, adaptando-os a necessidades específicas. Isto pode envolver a melhoria do reconhecimento de voz para diferentes sotaques, a otimização da classificação de géneros musicais, a otimização da deteção de eventos sonoros, a personalização da geração de áudio, a adaptação a ambientes ruidosos, a melhoria da qualidade do áudio e a personalização das experiências de áudio. Seguem-se alguns exemplos de utilização comuns da otimização de áudio:
Assistentes de voz melhorados:
- Encomenda de comida por voz: desenvolva sistemas ativados por voz para uma encomenda e entrega de comida integrada.
 
Análise de conteúdo de áudio:
- Transcrição automática: gere transcrições altamente precisas, mesmo em ambientes ruidosos.
 - Resumo de áudio: resuma os pontos principais de podcasts ou livros áudio.
 - Classificação de música: categorize música com base no género, estado de espírito ou outras caraterísticas.
 
Acessibilidade e tecnologias de assistência:
- Legendas em tempo real: ofereça legendas instantâneas para eventos ou videochamadas.
 - Aplicações controladas por voz: desenvolva aplicações controladas inteiramente por voz.
 - Aprendizagem de idiomas: criar ferramentas que ofereçam feedback personalizado sobre a pronúncia.
 
Limitações
Modelos Gemini 2.5
| Especificação | Valor | 
|---|---|
| Duração máxima do áudio por exemplo | 60 minutos | 
| Número máximo de ficheiros de áudio por exemplo | 1 | 
| Tamanho máximo do ficheiro de áudio | 100MB | 
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
      | Especificação | Valor | 
|---|---|
| Duração máxima do áudio por exemplo | 60 minutos | 
| Número máximo de ficheiros de áudio por exemplo | 1 | 
| Tamanho máximo do ficheiro de áudio | 100MB | 
Para saber mais sobre os requisitos de amostras de áudio, consulte a página Compreensão de áudio (apenas voz).
Formato do conjunto de dados
O fileUri do conjunto de dados pode ser o URI de um ficheiro num contentor do Cloud Storage ou pode ser um URL HTTP ou HTTPS disponível publicamente.
Para ver o exemplo de formato genérico, consulte o Exemplo de conjunto de dados para o Gemini.
Segue-se um exemplo de um conjunto de dados de áudio.
{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}
O que se segue?
- Para saber mais sobre o modelo de compreensão de áudio do Gemini, consulte o artigo Compreensão de áudio (apenas voz).
 - Para começar a otimizar, consulte o artigo Otimize os modelos do Gemini através da otimização precisa supervisionada.
 - Para saber como a otimização precisa supervisionada pode ser usada numa solução que cria uma base de conhecimentos de IA generativa, consulte o artigo Solução de arranque rápido: base de conhecimentos de IA generativa.