Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zum Optimieren von Gemini für Audiodaten mithilfe von überwachtem Lernen.
Anwendungsfälle
Durch die Abstimmung von Audiomodellen lässt sich ihre Leistung verbessern, da sie an bestimmte Anforderungen angepasst werden. Dazu gehört beispielsweise die Verbesserung der Spracherkennung für verschiedene Akzente, die Feinabstimmung der Musikgenreklassifizierung, die Optimierung der Erkennung von Geräuschereignissen, die Anpassung an laute Umgebungen, die Verbesserung der Audioqualität und die Personalisierung von Audioinhalten. Hier einige gängige Anwendungsfälle für die Audiooptimierung:
Erweiterte Sprachassistenten:
- Sprachbasierte Essensbestellung: Entwickeln Sie sprachaktivierte Systeme für die reibungslose Bestellung und Lieferung von Essen.
Analyse von Audioinhalten:
- Automatische Transkription: Erstellung äußerst präziser Transkripte, auch in lauten Umgebungen.
- Audiozusammenfassung: Die wichtigsten Punkte aus Podcasts oder Hörbüchern werden zusammengefasst.
- Musikklassifizierung: Musik kann nach Genre, Stimmung oder anderen Merkmalen kategorisiert werden.
Bedienungshilfen und Hilfstechnologien:
- Untertitel in Echtzeit: Live-Untertitel für Veranstaltungen oder Videoanrufe bereitstellen lassen.
- Sprachgesteuerte Anwendungen: Anwendungen entwickeln, die vollständig per Sprachbefehl gesteuert werden.
- Sprachlernen: Tools erstellen, die personalisiertes Feedback zur Aussprache geben.
Beschränkungen
- Maximale Audiolänge pro Beispiel: 10 Minuten.
- Maximale Anzahl von Audiodateien pro Beispiel: 1.
- Maximale Audiodateigröße: 20 MB.
Weitere Informationen zu den Anforderungen an Audiobeispiele finden Sie auf der Seite Audioverständnis (nur Sprache).
Dataset-Format
Im Folgenden finden Sie ein Beispiel für ein Audio-Dataset.
Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini 1.5 Pro und Gemini 1.5 Flash.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
Nächste Schritte
- Weitere Informationen zum Audioverständnismodell von Gemini finden Sie unter Audioverständnis (nur Sprache).
- Weitere Informationen finden Sie unter Gemini-Modelle mit überwachter Feinabstimmung abstimmen.
- Informationen dazu, wie die überwachte Feinabstimmung in einer Lösung verwendet werden kann, die eine Wissensdatenbank für generative KI erstellt, finden Sie unter Schnellstartlösung: Wissensdatenbank für generative KI.