Diese Seite wurde von der Cloud Translation API übersetzt.

Audiooptimierung

Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zur Feinabstimmung von Gemini mithilfe von Audiodaten und beaufsichtigtem Lernen.

Anwendungsfälle

Durch die Abstimmung von Audiomodellen wird ihre Leistung verbessert, da sie an bestimmte Anforderungen angepasst werden. Dazu gehören die Verbesserung der Spracherkennung für verschiedene Akzente, die Feinabstimmung der Musikgenre-Klassifizierung, die Optimierung der Erkennung von Geräuschereignissen, die Anpassung der Audioerstellung, die Anpassung an laute Umgebungen, die Verbesserung der Audioqualität und die Personalisierung von Audioinhalten. Hier sind einige gängige Anwendungsfälle für die Audiooptimierung:

Erweiterte Sprachassistenten:
- Sprachgesteuerte Essensbestellung: Entwickeln Sie sprachaktivierte Systeme für die nahtlose Essensbestellung und Lieferung.
Analyse von Audioinhalten:
- Automatische Transkription: Erstellung äußerst präziser Transkripte, auch in lauten Umgebungen.
- Audiozusammenfassung: Die wichtigsten Punkte aus Podcasts oder Hörbüchern zusammenfassen lassen
- Musikklassifizierung: Musik nach Genre, Stimmung oder anderen Merkmalen kategorisieren.
Bedienungshilfen und Hilfstechnologien:
- Untertitel in Echtzeit: Live-Untertitel für Veranstaltungen oder Videoanrufe bereitstellen lassen.
- Sprachgesteuerte Anwendungen: Anwendungen entwickeln, die vollständig per Sprachbefehl gesteuert werden.
- Sprachlernen: Tools erstellen, die personalisiertes Feedback zur Aussprache geben.

Beschränkungen

Gemini 2.5-Modelle

Spezifikation	Wert
Maximale Audiolänge pro Beispiel	60 Minuten
Maximale Anzahl von Audiodateien pro Beispiel	1
Maximale Größe von Audiodateien	100 MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Spezifikation	Wert
Maximale Audiolänge pro Beispiel	60 Minuten
Maximale Anzahl von Audiodateien pro Beispiel	1
Maximale Größe von Audiodateien	100 MB

Weitere Informationen zu den Anforderungen an Audiobeispiele finden Sie auf der Seite Audioverständnis (nur Sprache).

Dataset-Format

Der fileUri für Ihr Dataset kann der URI für eine Datei in einem Cloud Storage-Bucket oder eine öffentlich verfügbare HTTP- oder HTTPS-URL sein.

Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini.

Im Folgenden finden Sie ein Beispiel für ein Audio-Dataset.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

Nächste Schritte

Weitere Informationen zum Audioverständnismodell von Gemini finden Sie unter Audioverständnis (nur Sprache).
Weitere Informationen finden Sie unter Gemini-Modelle mithilfe der überwachten Feinabstimmung abstimmen.
Informationen dazu, wie die überwachte Feinabstimmung in einer Lösung verwendet werden kann, die eine Wissensdatenbank für generative KI erstellt, finden Sie unter Schnellstartlösung: Wissensdatenbank für generative KI.