API Lyria

Lyria è un nuovo modello di base per la generazione di audio di alta qualità, in grado di creare diversi paesaggi sonori e brani musicali da prompt di testo. Lyria consente agli utenti di generare musica strumentale di alta qualità da prompt di testo.

Per esplorare questo modello nella console, consulta la scheda del modello Lyria in Model Garden (accessibile utilizzando la scheda Media Studio).

Prova Lyria su Vertex AI (Vertex AI Studio)

Provare Lyria in un Colab

Modelli supportati

L'API Lyria supporta il seguente modello:

  • lyria-002

Richiesta HTTP

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  https://LOCATION[-aiplatform.googleapis.com/v1/projects/](https://-aiplatform.googleapis.com/v1/projects/)PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002:predict \
  -d '{
    "instances": [
      {
        "prompt": "string",
        "negative_prompt": "string", // Optional
        "seed": 0 // Optional. Cannot be used with sample_count.
      }
    ],
    "parameters": {
      "sample_count": 1 // Optional. Cannot be used with seed.
    }
  }'

Utilizza i seguenti parametri per il modello Lyria. Per ulteriori informazioni, consulta i dettagli della scheda Lyria Model Garden.

Parametro

prompt

(nell'oggetto instances)

string

Obbligatorio. La descrizione testuale in inglese americano (en-us) dell'audio da generare.

Esempio: "Un brano dance elettronico energico con un tempo veloce".

negative_prompt

(nell'oggetto instances)

string

Facoltativo. Una descrizione di cosa escludere dall'audio generato.

Esempio: "vocals, slow tempo"

seed

(nell'oggetto instances)

integer

Facoltativo. Un seed per la generazione deterministica. Se fornito, il modello tenterà di produrre lo stesso audio con lo stesso prompt e altri parametri.

Non può essere utilizzato con sample_count nella stessa richiesta.

Esempio: 12345

sample_count

(nell'oggetto parameters)

integer

Facoltativo. Il numero di sample audio da generare. Il valore predefinito è 1 se non specificato e il seed non viene utilizzato.

Non può essere utilizzato con seed nella stessa richiesta.

Esempio: 2

Richiesta di esempio

Utilizza la seguente richiesta per generare musica strumentale da un prompt di testo:

Richiesta di generazione di testo in musica

curl

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/lyria-002:predict \
-d '{
  "instances": [
    {
      "prompt": "A calm acoustic folk song with a gentle guitar melody and soft strings.",
      "negative_prompt": "drums, electric guitar",
      "seed": 98765
    }
  ],
  "parameters": {}
}'

JSON

In questo esempio viene utilizzato seed per un output riproducibile.


{
  "instances": [
    {
      "prompt": "A calm acoustic folk song with a gentle guitar melody and soft strings.",
      "negative_prompt": "drums, electric guitar",
      "seed": 98765
    }
  ],
  "parameters": {}
}

JSON con sample_count

Questo esempio utilizza sample_count per generare più esempi.

Per testare un prompt di testo utilizzando l'API Lyria, invia una richiesta POST all'endpoint del modello del publisher. L'esempio seguente omette seed dall'oggetto instances e utilizza sample_count nell'oggetto parameters per generare più esempi.


{
  "instances": [
    {
      "prompt": "A calm acoustic folk song with a gentle guitar melody and soft strings.",
      "negative_prompt": "drums, electric guitar"
    }
  ],
  "parameters": {
    "sample_count": 2
  }
}

Corpo della risposta

Una richiesta corretta restituisce un oggetto JSON contenente i dati audio generati. Ogni clip audio generato ha una durata di 30 secondi e viene fornito come file audio WAV con frequenza di campionamento di 48 kHz.

{
  "predictions": [
    {
      "audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_1",
      "mimeType": "audio/wav"
    }
    // Additional audio samples will be listed here if sample_count > 1
    // e.g.,
    //{"audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_2",
    // "mimeType": "audio/wav"
    //}
  ],
  "deployedModelId": "xxxxxxxxxxxxxxx", // Actual ID may vary based on deployment
  "model": "projects/PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002",
  "modelDisplayName": "Lyria 2"
}
Elemento Response
predictions

array

Un array di campioni audio generati. Ogni oggetto nell'array rappresenta un clip audio.

predictions[].audioContent

string

Stringa con codifica base64 dei dati audio WAV generati.

predictions[].mimeType

string

Il tipo MIME dei dati audio. Per Lyria, si tratta di "audio/wav".

deployedModelId

string

L'ID del modello di cui è stato eseguito il deployment che ha elaborato la richiesta (se applicabile al tipo di endpoint).

model

string

Il nome completo della risorsa del modello che ha elaborato la richiesta.

modelDisplayName

string

Il nome visualizzato del modello.

Best practice e limitazioni

Consulta la scheda del modello Lyria per le best practice dettagliate su prompt, supporto linguistico (solo inglese americano per i prompt), tempi di generazione, formato di output (WAV, 48 kHz, clip strumentali di 30 secondi), misure di sicurezza e informazioni sul deployment.

Punti chiave:

  • Prompt dettagliati:in genere generano audio di qualità migliore.
  • Specifica: genere, umore, strumentazione, tempo.
  • Prompt negativo:utilizza negative_prompt per escludere gli elementi.
  • Output: clip audio WAV di 30 secondi, 48 kHz, solo strumentali.
  • Sicurezza: vengono applicati filtri per la sicurezza dei contenuti, controlli di lettura, controlli delle intenzioni dell'artista e applicazione di filigrane SynthID.

Prezzi

L'utilizzo di Lyria 2 ha un costo di 0,06 $per 30 secondi di musica di output generata. Per maggiori dettagli, consulta Prezzi di Vertex AI.

Ulteriori informazioni

  • Scopri di più sull'IA generativa su Vertex AI.
  • Per una panoramica di Lyria, consulta la relativa scheda del modello disponibile in Model Garden (Media Studio).

Passaggi successivi