Ajuste de audio

En esta página se describen los requisitos previos y las instrucciones detalladas para ajustar Gemini con datos de audio mediante el aprendizaje supervisado.

Casos prácticos

Ajustar los modelos de audio mejora su rendimiento, ya que se adaptan a necesidades específicas. Esto puede implicar mejorar el reconocimiento de voz para diferentes acentos, ajustar la clasificación de géneros musicales, optimizar la detección de eventos sonoros, personalizar la generación de audio, adaptarse a entornos ruidosos, mejorar la calidad del audio y personalizar las experiencias de audio. Estos son algunos casos prácticos habituales de ajuste de audio:

  • Asistentes de voz mejorados:

    • Pedidos de comida por voz: desarrolla sistemas activados por voz para que los usuarios puedan pedir comida y recibirla a domicilio sin problemas.
  • Análisis de contenido de audio:

    • Transcripción automática: genera transcripciones muy precisas, incluso en entornos ruidosos.
    • Resumen de audio: resume los puntos clave de pódcasts o audiolibros.
    • Clasificación de música: categoriza la música según el género, el estado de ánimo u otras características.
  • Accesibilidad y tecnologías asistenciales:

    • Subtítulos en tiempo real: ofrece subtítulos en directo para eventos o videollamadas.
    • Aplicaciones controladas por voz: desarrolla aplicaciones que se controlen completamente con la voz.
    • Aprendizaje de idiomas: crea herramientas que proporcionen comentarios personalizados sobre la pronunciación.

Limitaciones

Modelos de Gemini 2.5

Especificaciones Valor
Duración máxima del audio por ejemplo 60 minutos
Número máximo de archivos de audio por ejemplo 1
Tamaño máximo del archivo de audio 100 MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Especificaciones Valor
Duración máxima del audio por ejemplo 60 minutos
Número máximo de archivos de audio por ejemplo 1
Tamaño máximo del archivo de audio 100 MB

Para obtener más información sobre los requisitos de las muestras de audio, consulta la página Comprensión de audio (solo voz).

Formato del conjunto de datos

El fileUri de tu conjunto de datos puede ser el URI de un archivo de un segmento de Cloud Storage o una URL HTTP o HTTPS disponible públicamente.

Para ver un ejemplo de formato genérico, consulta Ejemplo de conjunto de datos para Gemini.

A continuación, se muestra un ejemplo de un conjunto de datos de audio.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

Siguientes pasos