Lyria | Generador de música con IA

Puedes usar Lyria para generar pistas de música instrumental nuevas a partir de un mensaje de texto que proporciones en la consola de Google Cloud o enviar una solicitud a la API de Gemini en la API de Vertex AI.

Prueba Lyria en Vertex AI (Vertex AI Studio)

Funciones de Lyria y etapa de lanzamiento

Lyria ofrece funciones de IA generativa para la creación de música.

En la siguiente tabla, se describen las funciones que están disponibles de forma general (DG) para todos los usuarios:

Función Descripción Etapa de lanzamiento
Generar música a partir de texto Generar pistas de música instrumental a partir de una entrada de texto descriptivo Disponibilidad general
Instrucciones negativas Guía al modelo para que evite elementos específicos en la música generada. Disponibilidad general
Semilla para la reproducibilidad Usa una semilla para garantizar resultados de generación coherentes para la misma instrucción y los mismos parámetros. Disponibilidad general

Ubicaciones

Una ubicación es una región que puedes especificar en una solicitud para controlar dónde se almacenan los datos en reposo. Lyria 2 se ofrece a nivel mundial. Para obtener la lista de regiones disponibles para los servicios de Vertex AI, consulta IA generativa en ubicaciones de Vertex AI.

Rendimiento y limitaciones

Límites Valor
Modalidades Generación de música a partir de texto (solo instrumental)
Llamadas a la API (solicitudes por proyecto y por minuto) Consulta la [documentación sobre cuotas y límites](/vertex-ai/generative-ai/docs/quotas) para conocer los límites estándar de Vertex AI Inference.
Latencia de la solicitud (tiempo de generación) Por lo general, los clips de audio se generan en un plazo de entre 10 y 20 segundos. Es posible que algunas solicitudes se pongan en cola durante los períodos de uso pico.
Cantidad máxima de clips de audio que se muestran por solicitud Hasta el sample_count especificado. (El valor máximo para sample_count se determinará más adelante, pero suele ser un número entero pequeño, p.ej., 1-4).
Duración de audio por clip 32.8 segundos
Formato de audio devuelto compatible Audio WAV con una tasa de muestreo de 48 kHz
Idioma de la instrucción de entrada Inglés de EE.UU. (en-us)

IA responsable

Lyria genera música instrumental a partir de instrucciones de texto. Lyria aplica medidas de seguridad, como filtros de seguridad de contenido, verificación de recitación y verificaciones de intención del artista, para evitar la entrada y generación de contenido dañino o inapropiado. Se usa la marca de agua de SynthID en el audio generado. Es posible que se bloqueen las instrucciones que infrinjan los lineamientos de la IA responsable.

Versiones y ciclo de vida del modelo Lyria de Vertex AI

El modelo y la versión de Lyria son los siguientes:

Nombre del modelo Identificador
Lyria 2 lyria-002

Genera música a partir de texto

Puedes generar pistas de música instrumental nuevas con texto descriptivo como entrada.

Antes de comenzar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  6. Configura la autenticación para tu entorno.

    Select the tab for how you plan to use the samples on this page:

    Console

    When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

    REST

    Para usar las muestras de la API de REST en esta página en un entorno de desarrollo local, debes usar las credenciales que proporciones a gcloud CLI.

      Instala Google Cloud CLI. Después de la instalación, inicializa Google Cloud CLI ejecutando el siguiente comando:

      gcloud init

      Si usas un proveedor de identidad externo (IdP), primero debes acceder a gcloud CLI con tu identidad federada.

    Para obtener más información, consulta Autentícate para usar REST en la documentación de autenticación de Google Cloud .

    Console

    1. En la Google Cloud consola, ve a la página Vertex AI Studio > Media Studio.

      Media Studio

    2. Selecciona el modelo Lyria o la opción de generación de música.

    3. Opcional: En el panel Configuración, establece los siguientes parámetros de configuración:

      • Modelo: Elige lyria-002 si hay varias versiones disponibles.
      • Cantidad de muestras (sample_count): Ajusta la cantidad de clips de audio que se generarán para la instrucción. (No se puede usar con Seed).
      • Semilla: Ingresa un número entero para obtener resultados reproducibles. (No se puede usar con la cantidad de muestras).
    4. En el cuadro Escribe tu instrucción, ingresa tu instrucción de texto en inglés de EE.UU. que describa la música que se generará.

    5. Opcional: En el cuadro Instrucción negativa, ingresa términos o descripciones para excluir de la música generada.

    6. Haz clic en Generar .

    7. Los clips de audio generados estarán disponibles para su vista previa y descarga como archivos WAV.

    REST

    Usa el método predict para enviar una solicitud de generación de música. La respuesta contendrá directamente los datos de audio, que suelen estar codificados en Base64 si la respuesta es JSON.

    Para obtener más información sobre las solicitudes del modelo lyria-002, consulta la referencia de la API del modelo lyria-002.

    Para generar música, envía una solicitud POST al extremo predict del modelo.

    Solicitud:

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002:predict \
      -d '{
        "instances": [
          {
            "prompt": "An uplifting and hopeful orchestral piece with a soaring string melody and triumphant brass.",
            "negative_prompt": " dissonant, minor key",
            "seed": 12345
          }
        ],
        "parameters": {
          // "sample_count": 1 // Use either seed or sample_count
        }
      }'
    

    Respuesta:

    Una solicitud exitosa devuelve un objeto JSON que contiene los datos de audio generados. Debería verse algo similar a lo siguiente:

    {
      "predictions": [
        {
          "audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_1",
          "mimeType": "audio/wav"
        },
        {
          "audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_2",
          "mimeType": "audio/wav"
        }
      ],
      "deployedModelId": "xxxxxxxxxxxxxxx",
      "model": "projects/PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002",
      "modelDisplayName": "Lyria 2"
    }
    

    Luego, decodificarías audioContent (base64) para obtener el archivo de audio WAV. Cada clip tiene una duración de 32.8 segundos.

    ¿Qué sigue?