Esta página se ha traducido con Cloud Translation API.

Ajuste de audio

En esta página se describen los requisitos previos y las instrucciones detalladas para ajustar Gemini con datos de audio mediante el aprendizaje supervisado.

Casos prácticos

Ajustar los modelos de audio mejora su rendimiento, ya que se adaptan a necesidades específicas. Esto puede implicar mejorar el reconocimiento de voz para diferentes acentos, ajustar la clasificación de géneros musicales, optimizar la detección de eventos sonoros, personalizar la generación de audio, adaptarse a entornos ruidosos, mejorar la calidad del audio y personalizar las experiencias de audio. Estos son algunos casos prácticos habituales de ajuste de audio:

Asistentes de voz mejorados:
- Pedidos de comida por voz: desarrolla sistemas activados por voz para que los usuarios puedan pedir comida y recibirla a domicilio sin problemas.
Análisis de contenido de audio:
- Transcripción automática: genera transcripciones muy precisas, incluso en entornos ruidosos.
- Resumen de audio: resume los puntos clave de pódcasts o audiolibros.
- Clasificación de música: categoriza la música según el género, el estado de ánimo u otras características.
Accesibilidad y tecnologías asistenciales:
- Subtítulos en tiempo real: ofrece subtítulos en directo para eventos o videollamadas.
- Aplicaciones controladas por voz: desarrolla aplicaciones que se controlen completamente con la voz.
- Aprendizaje de idiomas: crea herramientas que proporcionen comentarios personalizados sobre la pronunciación.

Limitaciones

Modelos de Gemini 2.5

Especificaciones	Valor
Duración máxima del audio por ejemplo	60 minutos
Número máximo de archivos de audio por ejemplo	1
Tamaño máximo del archivo de audio	100 MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Especificaciones	Valor
Duración máxima del audio por ejemplo	60 minutos
Número máximo de archivos de audio por ejemplo	1
Tamaño máximo del archivo de audio	100 MB

Para obtener más información sobre los requisitos de las muestras de audio, consulta la página Comprensión de audio (solo voz).

Formato del conjunto de datos

El fileUri de tu conjunto de datos puede ser el URI de un archivo de un segmento de Cloud Storage o una URL HTTP o HTTPS disponible públicamente.

Para ver un ejemplo de formato genérico, consulta Ejemplo de conjunto de datos para Gemini.

A continuación, se muestra un ejemplo de un conjunto de datos de audio.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

Siguientes pasos

Para obtener más información sobre el modelo de comprensión de audio de Gemini, consulta Comprensión de audio (solo voz).
Para empezar a ajustar, consulta Ajustar modelos de Gemini mediante el ajuste fino supervisado.
Para saber cómo se puede usar el ajuste fino supervisado en una solución que cree una base de conocimientos de IA generativa, consulta Solución de inicio rápido: base de conocimientos de IA generativa.