Google Cloud Informationen zum Vorbereiten Ihrer Audio- und Textdaten für die Feinabstimmung eines benutzerdefinierten Speech-to-Text-Modells in der Speech Console Die Qualität der Trainingsdaten beeinflusst die Effektivität der von Ihnen erstellten Modelle. Sie müssen einen vielfältigen Datensatz zusammenstellen, der repräsentativen Audio- und Textkontext enthält, der direkt für das Modell relevant ist, auf das es während der Inferenzzeit in der Produktion reagieren soll, einschließlich Rauschen und ungewöhnlichem Vokabular.
Für das effektive Training eines benutzerdefinierten Speech-to-Text-Modells benötigen Sie Folgendes:
- Mindestens 100 Audiostunden an Trainingsdaten, entweder nur Audio oder mit dem entsprechenden Texttranskript als Grundwahrheit. Diese Daten sind für die anfängliche Trainingsphase entscheidend, damit das Modell die Nuancen der Sprachmuster und des Wortschatzes lernt. Weitere Informationen finden Sie unter Grundwahrheiten-Dataset erstellen.
- Ein separates Dataset mit mindestens zehn Audiostunden an Validierungsdaten und dem entsprechenden Texttranskript als Grundwahrheit.
Hinweis
Sie müssen sich für ein Google Cloud Konto registriert, ein Google Cloud Projekt erstellt und die Speech-to-Text API aktiviert haben:
- Rufen Sie Cloud Storage auf.
- Erstellen Sie einen Bucket, falls Sie noch keinen haben.
Dataset erstellen
Wenn Sie einen Datensatz erstellen möchten, müssen Sie im gewünschten Cloud Storage-Bucket zwei Unterverzeichnisse erstellen. Verwenden Sie einfache Namenskonventionen:
- Erstellen Sie das Unterverzeichnis training_dataset, um Ihre Trainingsdateien zu speichern.
- Erstellen Sie das Unterverzeichnis validation_dataset, um Ihre Trainingsdateien zu speichern.
- Laden Sie Ihre Audio- und Textdateien in die Verzeichnisse hoch. Folgen Sie dabei den Richtlinien für die Annotationen zu Grundwahrheiten.
Richtlinien für Datensätze
- Sowohl für Training als auch für Validierung werden die Dateiformate
.wav
für Audiodateien mit LINEAR16-Codierung und.txt
für Textdateien unterstützt, falls verfügbar. Vermeiden Sie Nicht-ASCII-Zeichen in den Dateinamen. - Audiodateien im selben Verzeichnis sollten in separaten TXT-Dateien bereitgestellt werden, die jeweils den gleichen Namen wie die entsprechende WAV-Datei haben, z. B. my_file_1.wav, my_file_1.txt. Pro Audiodatei darf nur eine Transkriptionsdatei vorhanden sein.
Trainingsdaten
- Alle Dateien für das Training müssen sich im selben Verzeichnis befinden, ohne verschachtelte Ordner.
- Optional: Wenn verfügbar, stellen Sie Transkripte für die Audiodateien bereit. Zeitstempel sind nicht erforderlich.
- Die Gesamtlänge der Audiodateien muss mehr als 100 Stunden betragen. Andernfalls schlägt der Trainingsjob fehl.
Hier ein Beispiel dafür, wie die Verzeichnisstruktur aussehen sollte, nachdem die Dateien als Trainingsdatensatz hochgeladen wurden:
├── training_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ ├── example_2.txt │ ├── example_3.wav (Note: Audio only instance, without corresponding text) │ └── example_4.wav (Note: Audio only instance, without corresponding text)
Validierungsdaten
- Alle Dateien für die Validierung werden im Verzeichnis validation_dataset ohne verschachtelte Ordner bereitgestellt.
- Validierungsaudio sollte nicht länger als 30 Sekunden sein.
- Stellen Sie Transkriptionen von Grundwahrheiten für jede Audiodatei im selben Verzeichnis in einer separaten TXT-Datei bereit.
Hier ist ein Beispiel dafür, wie die Verzeichnisstruktur aussehen sollte, nachdem die Dateien als Validierungsdatensatz hochgeladen wurden:
├── validation_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ └── example_2.txt
Richtlinien für Grundwahrheiten-Annotationen
Weitere Informationen zur Formatierung finden Sie in der folgenden Anleitung.
Zahlen
Kardinal- und Ordinalzahlen sollten nur in Ziffern transkribiert werden.
- Audio: „Ein Stapel Karten enthält 52 Karten, dreizehn jeweils der vier Farben, Karo, Herzen und Pik.“
- Grundwahrheiten-Text: „Ein Stapel Karten enthält 52 Karten, dreizehn jeweils der vier Farben, Karo, Herzen und Pik.“
Währung und Einheiten
Geben Sie sie so wieder, wie sie üblicherweise in der Zielsprache und ggf. dem entsprechenden Land geschrieben werden. Schreiben Sie alle Einheiten nach Zahlenwerten in der abgekürzten Form. Wenn aus dem Kontext klar ist, dass mit einer Zahl oder Zahlenfolge ein Betrag oder eine Zeitangabe gemeint ist, formatieren Sie sie entsprechend.
Datum und Uhrzeit
Verwenden Sie für Datums- und Uhrzeitangaben die übliche Schreibweise in der Zielsprache. Geben Sie Uhrzeiten nach Möglichkeit im Format hh:mm
an.
Adressen
Transkribieren Sie unter Verwendung der vollständigen Namen von Orten, Straßen und Bundesländern, und nutzen Sie Abkürzungen, falls diese explizit gesprochen werden. Objekte und Standorte sollten mit einem Komma dazwischen transkribiert werden.
Eigennamen und Akzente
Verwenden Sie bei der Transkription die offizielle Schreibweise und Interpunktion. Wenn bei einem Personennamen mehrere Schreibweisen möglich sind und sich keine bestimmte Schreibweise aus dem Kontext ergibt, verwenden Sie die häufigste Schreibweise.
Marken-, Produktnamen und Medientitel
Transkribieren Sie sie so, wie sie offiziell formatiert und am häufigsten geschrieben werden.
Interjektionen
Lacher und andere nicht-sprachliche Vokalereignisse sollten mit bis zu drei Silben transkribiert werden. Lacher, die Teil eines Sprachausdrucks sind, sollten vollständig ignoriert werden. Beispiel:
- Audio: „Ha ha ha ha ha“
- Grundwahrheiten-Text: „Hahaha“
Mehrere Sprecher
Trennen Sie mehrere Sprecher nicht durch Sprecher-Tags; die Sprecherbestimmung wird im Allgemeinen nicht unterstützt.
Nächste Schritte
In den folgenden Ressourcen erfahren Sie, wie Sie benutzerdefinierte Sprachmodelle in Ihrer Anwendung nutzen können:
- Benutzerdefinierte Modelle trainieren und verwalten
- Modellendpunkte bereitstellen und verwalten.
- Benutzerdefinierte Modelle verwenden
- Benutzerdefinierte Modelle bewerten