Trainingsdaten vorbereiten

Hier erfahren Sie, wie Sie Audio- und Textdaten für die Optimierung eines benutzerdefinierten Speech-to-Text-Modells in der Google Cloud Speech Console vorbereiten. Die Qualität der Trainingsdaten beeinflusst die Effektivität der von Ihnen erstellten Modelle. Sie müssen ein vielfältiges Dataset erstellen, das repräsentative Audio- und Textkontexte enthält, die direkt für die Reaktion des Modells während der Inferenzzeit in der Produktion relevant sind, einschließlich Rauschen und ungewöhnlichem Vokabular.

Für das effektive Training eines benutzerdefinierten Speech-to-Text-Modells benötigen Sie:

  • Mindestens 100 Audiostunden an Trainingsdaten, entweder nur Audio oder mit dem entsprechenden Texttranskript als Grundwahrheit. Diese Daten sind für die erste Trainingsphase entscheidend, damit das Modell die Nuancen der Sprachmuster und das Vokabular erlernt. Weitere Informationen finden Sie unter Grundwahrheiten-Dataset erstellen.
  • Ein separates Dataset mit mindestens zehn Audiostunden an Validierungsdaten und dem entsprechenden Texttranskript als Grundwahrheit.

Hinweise

Sie müssen sich für ein Google Cloud-Konto registriert, ein Google Cloud-Projekt erstellt und die Speech-to-Text API aktiviert haben:

  1. Rufen Sie Cloud Storage auf.
  2. Erstellen Sie einen Bucket, falls Sie noch keinen haben.

Dataset erstellen

Zum Erstellen eines Datasets müssen Sie im Cloud Storage-Bucket Ihrer Wahl zwei Unterverzeichnisse erstellen. Halten Sie sich an einfache Namenskonventionen:

  1. Erstellen Sie das Unterverzeichnis training_dataset, um Ihre Trainingsdateien zu speichern.
  2. Erstellen Sie das Unterverzeichnis validation_dataset, um Ihre Trainingsdateien zu speichern.
  3. Laden Sie Ihre Audio- und Textdateien in die Verzeichnisse hoch. Folgen Sie dabei den Richtlinien für die Annotationen zu Grundwahrheiten.

Richtlinien für Datasets

  • Sowohl für Training als auch für Validierung werden die Dateiformate .wav für Audiodateien mit LINEAR16-Codierung und .txt für Textdateien unterstützt, falls verfügbar. Vermeiden Sie Nicht-ASCII-Zeichen in den Dateinamen.
  • Audiodateien im selben Verzeichnis sollten in separaten TXT-Dateien bereitgestellt werden, die jeweils den gleichen Namen wie die entsprechende WAV-Datei haben, z. B. my_file_1.wav, my_file_1.txt. Pro Audiodatei darf nur eine Transkriptionsdatei vorhanden sein.

Trainingsdaten

  • Alle Dateien für das Training müssen im selben Verzeichnis ohne verschachtelte Ordner bereitgestellt werden.
  • Optional: Stellen Sie gegebenenfalls Transkriptionen für die Audiodateien bereit. Es sind keine Zeitstempel erforderlich.
  • Achten Sie darauf, dass die Audiolänge Ihrer Audiodateien insgesamt mehr als 100 Stunden beträgt. Ist dies nicht der Fall, schlägt der Trainingsjob fehl.

Hier ein Beispiel dafür, wie die Verzeichnisstruktur aussehen sollte, nachdem die Dateien als Trainings-Dataset hochgeladen wurden:

├── training_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   ├── example_2.txt
│   ├── example_3.wav (Note: Audio only instance, without corresponding text)
│   └── example_4.wav (Note: Audio only instance, without corresponding text)

Validierungsdaten

  • Alle Dateien für die Validierung werden im Verzeichnis validation_dataset ohne verschachtelte Ordner bereitgestellt.
  • Validierungs-Audios sollten jeweils nicht länger als 30 Sekunden sein.
  • Stellen Sie Transkriptionen von Grundwahrheiten für jede Audiodatei im selben Verzeichnis in einer separaten TXT-Datei bereit.

Hier ist ein Beispiel dafür, wie die Verzeichnisstruktur aussehen sollte, nachdem die Dateien als Validierungs-Dataset hochgeladen wurden:

├── validation_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   └── example_2.txt

Richtlinien für Grundwahrheiten-Annotationen

Beachten Sie die folgende Formatierungsanleitung.

Numbers

Kardinalitäten und Ordinalzahlen dürfen nur in Ziffern transkribiert werden.

  • Audio: „Ein Stapel Karten enthält 52 Karten, dreizehn jeweils der vier Farben, Karo, Herzen und Pik.“
  • Grundwahrheiten-Text: „Ein Stapel Karten enthält 52 Karten, dreizehn jeweils der vier Farben, Karo, Herzen und Pik.“

Währung und Einheiten

Transkribieren Sie sie so, wie sie normalerweise in der Transkriptionssprache geschrieben werden. Schreiben Sie alle Einheiten nach Zahlenwerten in der abgekürzten Form. Wenn aus dem Kontext klar ist, dass mit einer Zahl oder Zahlenfolge ein Betrag oder eine Zeitangabe gemeint ist, formatieren Sie sie entsprechend.

Datum und Uhrzeit

Transkribieren Sie in der gängigen Form für Datumsangaben und Uhrzeiten in der Transkriptionssprache. Schreiben Sie die Zeiten nach Möglichkeit im hh:mm-Format.

Adressen

Transkribieren Sie unter Verwendung der vollständigen Namen von Orten, Straßen und Bundesländern, und nutzen Sie Abkürzungen, falls diese explizit gesprochen werden. Entitäten und Standorte sollten durch ein Komma dazwischen transkribiert werden.

Eigennamen und Akzente

Transkribieren Sie mit der offiziellen Schreibweise und Zeichensetzung. Wenn ein Personenname mehrere Schreibweisen haben kann und der Kontext nicht hilfreich ist, verwenden Sie die häufigste Schreibweise.

Marke, Produktnamen und Medientitel

Transkribieren Sie sie so, wie sie offiziell formatiert und am häufigsten geschrieben werden.

Interjektionen

Lacher und andere nicht-sprachliche Vokalereignisse sollten mit bis zu drei Silben transkribiert werden. Lacher, die Teil eines Sprachausdrucks sind, sollten vollständig ignoriert werden. Beispiel:

  • Audio: „Ha ha ha ha ha“
  • Grundwahrheiten-Text: „Hahaha“

Mehrere Sprecher

Trennen Sie mehrere Sprecher nicht durch Sprecher-Tags; die Sprecherbestimmung wird im Allgemeinen nicht unterstützt.

Nächste Schritte

Nutzen Sie die folgenden Ressourcen, um benutzerdefinierte Sprachmodelle in Ihrer Anwendung zu nutzen: