Questa pagina fornisce prerequisiti e istruzioni dettagliate per l'ottimizzazione Gemini sui dati audio utilizzando l'apprendimento supervisionato.
Casi d'uso
L'ottimizzazione dei modelli audio ne migliora le prestazioni adattandoli a specifiche e alle esigenze aziendali. Ciò può comportare il miglioramento del riconoscimento vocale per diversi accenti, affinare la classificazione dei generi musicali, ottimizzare il rilevamento degli eventi sonori, personalizzazione della generazione dell'audio, adattamento ad ambienti rumorosi, miglioramento dell'audio la qualità dell'audio e personalizzare le esperienze audio. Ecco alcuni casi d'uso comuni per la regolazione dell'audio:
Assistenti vocali migliorati:
- Ordinazione di cibo vocale: sviluppa sistemi ad attivazione vocale per ordinare e consegnare cibo in tutta semplicità.
Analisi dei contenuti audio:
- Trascrizione automatica: genera trascrizioni molto accurate, anche in ambienti rumorosi.
- Riassunto audio: riassumi i punti chiave di podcast o audiolibri.
- Classificazione musicale: classifica la musica in base a genere, stato d'animo o altre caratteristiche.
Accessibilità e tecnologie per la disabilità:
- Sottotitoli in tempo reale: fornisci sottotitoli in tempo reale per eventi o videochiamate.
- Applicazioni con controllo vocale: sviluppa applicazioni controllate interamente con la voce.
- Apprendimento delle lingue: crea strumenti che forniscono feedback personalizzati sulla pronuncia.
Limitazioni
- Durata audio massima per esempio: 10 minuti.
- Numero massimo di file audio per esempio: 1.
- Dimensioni massime del file audio: 20 MB.
Per scoprire di più sui requisiti per i campioni audio, visita la pagina Comprensione audio (solo voce).
Formato del set di dati
Di seguito è riportato un esempio di set di dati audio.
Per vedere l'esempio di formato generico, vedi Esempio di set di dati per Gemini 1.5 Pro e Gemini 1.5 Flash.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
Passaggi successivi
- Per scoprire di più sul modello di comprensione audio di Gemini, consulta Comprensione audio (solo voce)
- Per avviare l'ottimizzazione, vedi Ottimizzare i modelli Gemini utilizzando l'ottimizzazione supervisionata
- Per scoprire come la regolazione fine supervisionata può essere utilizzata in una soluzione che crea una knowledge base di IA generativa, consulta la soluzione Jump Start: Knowledge base di IA generativa.