Se usó la API de Cloud Translation para traducir esta página.

Ajuste de audio

En esta página, se proporcionan los requisitos previos y las instrucciones detalladas para ajustar Gemini en datos de audio con el aprendizaje supervisado.

Casos de uso

El ajuste de los modelos de audio mejora su rendimiento, ya que los adapta a necesidades específicas. Esto puede implicar mejorar el reconocimiento de voz para diferentes acentos, ajustar la clasificación de géneros musicales, optimizar la detección de eventos de sonido, personalizar la generación de audio, adaptarse a entornos ruidosos, mejorar la calidad de audio y personalizar las experiencias de audio. Estos son algunos casos de uso comunes de la sintonización de audio:

Asistentes de voz mejorados:
- Pedidos de comida por voz: Desarrolla sistemas activados por voz para pedir y entregar comida sin problemas.
Análisis de contenido de audio:
- Transcripción automática: Genera transcripciones muy precisas, incluso en entornos ruidosos.
- Resumen de audio: Resume los puntos clave de los podcasts o audiolibros.
- Clasificación de música: Categoriza la música según el género, el estado de ánimo o alguna otra característica.
Accesibilidad y tecnologías de accesibilidad:
- Subtítulos en tiempo real: Proporciona subtítulos en vivo para eventos o videollamadas.
- Aplicaciones controladas por voz: Desarrolla aplicaciones controladas por completo por voz.
- Aprendizaje de idiomas: Crea herramientas que proporcionen comentarios personalizados sobre la pronunciación.

Limitaciones

Modelos de Gemini 2.5

Especificación	Valor
Duración máxima de audio por ejemplo	60 minutos
Cantidad máxima de archivos de audio por ejemplo	1
Tamaño máximo del archivo de audio	100 MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Especificación	Valor
Duración máxima de audio por ejemplo	60 minutos
Cantidad máxima de archivos de audio por ejemplo	1
Tamaño máximo del archivo de audio	100 MB

Para obtener más información sobre los requisitos de muestras de audio, consulta la página Comprensión de audio (solo voz).

Formato del conjunto de datos

El fileUri de tu conjunto de datos puede ser el URI de un archivo en un bucket de Cloud Storage o una URL HTTP o HTTPS disponible de forma pública.

Para ver el ejemplo de formato genérico, consulta Ejemplo de conjunto de datos para Gemini.

El siguiente es un ejemplo de un conjunto de datos de audio.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

¿Qué sigue?

Para obtener más información sobre el modelo de comprensión de audio de Gemini, consulta Comprensión de audio (solo voz).
Para comenzar a ajustar, consulta Ajusta los modelos de Gemini con el ajuste supervisado.
Para obtener información sobre cómo se puede usar el ajuste supervisado en una solución que compila una base de conocimiento de IA generativa, consulta Solución de inicio rápido: base de conocimiento de IA generativa.