Lyria è un nuovo modello di base per la generazione di audio di alta qualità, in grado di creare diversi paesaggi sonori e brani musicali da prompt di testo. Lyria consente agli utenti di generare musica strumentale di alta qualità da prompt di testo.
Per esplorare questo modello nella console, consulta la scheda del modello Lyria in Model Garden (accessibile utilizzando la scheda Media Studio).
Prova Lyria su Vertex AI (Vertex AI Studio)
Modelli supportati
L'API Lyria supporta il seguente modello:
lyria-002
Richiesta HTTP
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION[-aiplatform.googleapis.com/v1/projects/](https://-aiplatform.googleapis.com/v1/projects/)PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002:predict \
-d '{
"instances": [
{
"prompt": "string",
"negative_prompt": "string", // Optional
"seed": 0 // Optional. Cannot be used with sample_count.
}
],
"parameters": {
"sample_count": 1 // Optional. Cannot be used with seed.
}
}'
Utilizza i seguenti parametri per il modello Lyria. Per ulteriori informazioni, consulta i dettagli della scheda Lyria Model Garden.
Parametro | |
---|---|
(nell'oggetto |
Obbligatorio. La descrizione testuale in inglese americano (en-us) dell'audio da generare. Esempio: "Un brano dance elettronico energico con un tempo veloce". |
(nell'oggetto |
Facoltativo. Una descrizione di cosa escludere dall'audio generato. Esempio: "vocals, slow tempo" |
(nell'oggetto |
Facoltativo. Un seed per la generazione deterministica. Se fornito, il modello tenterà di produrre lo stesso audio con lo stesso prompt e altri parametri.
Non può essere utilizzato con Esempio: |
(nell'oggetto |
Facoltativo. Il numero di sample audio da generare. Il valore predefinito è 1 se non specificato e il seed non viene utilizzato.
Non può essere utilizzato con Esempio: |
Richiesta di esempio
Utilizza la seguente richiesta per generare musica strumentale da un prompt di testo:
Richiesta di generazione di testo in musica
curl
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/lyria-002:predict \ -d '{ "instances": [ { "prompt": "A calm acoustic folk song with a gentle guitar melody and soft strings.", "negative_prompt": "drums, electric guitar", "seed": 98765 } ], "parameters": {} }'
JSON
In questo esempio viene utilizzato seed
per un output riproducibile.
{ "instances": [ { "prompt": "A calm acoustic folk song with a gentle guitar melody and soft strings.", "negative_prompt": "drums, electric guitar", "seed": 98765 } ], "parameters": {} }
JSON con sample_count
Questo esempio utilizza sample_count
per generare più esempi.
Per testare un prompt di testo utilizzando l'API Lyria, invia una richiesta POST all'endpoint del modello del publisher. L'esempio seguente omette seed
dall'oggetto instances
e utilizza sample_count
nell'oggetto parameters
per generare più esempi.
{ "instances": [ { "prompt": "A calm acoustic folk song with a gentle guitar melody and soft strings.", "negative_prompt": "drums, electric guitar" } ], "parameters": { "sample_count": 2 } }
Corpo della risposta
Una richiesta corretta restituisce un oggetto JSON contenente i dati audio generati. Ogni clip audio generato ha una durata di 30 secondi e viene fornito come file audio WAV con frequenza di campionamento di 48 kHz.
{
"predictions": [
{
"audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_1",
"mimeType": "audio/wav"
}
// Additional audio samples will be listed here if sample_count > 1
// e.g.,
//{"audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_2",
// "mimeType": "audio/wav"
//}
],
"deployedModelId": "xxxxxxxxxxxxxxx", // Actual ID may vary based on deployment
"model": "projects/PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002",
"modelDisplayName": "Lyria 2"
}
Elemento Response | |
---|---|
predictions |
Un array di campioni audio generati. Ogni oggetto nell'array rappresenta un clip audio. |
predictions[].audioContent |
Stringa con codifica base64 dei dati audio WAV generati. |
predictions[].mimeType |
Il tipo MIME dei dati audio. Per Lyria, si tratta di |
deployedModelId |
L'ID del modello di cui è stato eseguito il deployment che ha elaborato la richiesta (se applicabile al tipo di endpoint). |
model |
Il nome completo della risorsa del modello che ha elaborato la richiesta. |
modelDisplayName |
Il nome visualizzato del modello. |
Best practice e limitazioni
Consulta la scheda del modello Lyria per le best practice dettagliate su prompt, supporto linguistico (solo inglese americano per i prompt), tempi di generazione, formato di output (WAV, 48 kHz, clip strumentali di 30 secondi), misure di sicurezza e informazioni sul deployment.
Punti chiave:
- Prompt dettagliati:in genere generano audio di qualità migliore.
- Specifica: genere, umore, strumentazione, tempo.
- Prompt negativo:utilizza
negative_prompt
per escludere gli elementi. - Output: clip audio WAV di 30 secondi, 48 kHz, solo strumentali.
- Sicurezza: vengono applicati filtri per la sicurezza dei contenuti, controlli di lettura, controlli delle intenzioni dell'artista e applicazione di filigrane SynthID.
Prezzi
L'utilizzo di Lyria 2 ha un costo di 0,06 $per 30 secondi di musica di output generata. Per maggiori dettagli, consulta Prezzi di Vertex AI.
Ulteriori informazioni
- Scopri di più sull'IA generativa su Vertex AI.
- Per una panoramica di Lyria, consulta la relativa scheda del modello disponibile in Model Garden (Media Studio).
Passaggi successivi
- Prova Lyria in Vertex AI Studio.
- Consulta i Termini di servizio di Google Cloud.
- Leggi i Termini aggiuntivi per i prodotti di IA generativa.