Hier erfahren Sie, wie Sie Ihre Audio- und Textdaten für die Feinabstimmung eines benutzerdefinierten Speech-to-Text-Modells in der Google Cloud Speech Console vorbereiten. Die Qualität der Trainingsdaten beeinflusst die Effektivität der von Ihnen erstellten Modelle. Sie müssen ein vielfältiges Dataset erstellen, das repräsentativen Audio- und Textkontext enthält, der direkt davon relevant ist, auf was das Modell während der Inferenzzeit in der Produktion reagiert, einschließlich Rauschen und ungewöhnlichem Vokabular.
Für das effektive Training eines benutzerdefinierten Speech-to-Text-Modells benötigen Sie Folgendes:
- Mindestens 100 Audiostunden an Trainingsdaten, entweder nur Audio oder mit dem entsprechenden Texttranskript als Grundwahrheit. Diese Daten sind für die erste Trainingsphase entscheidend, damit das Modell die Nuancen der Sprachmuster und des Vokabulars erlernt. Weitere Informationen finden Sie unter Grundwahrheiten-Dataset erstellen.
- Ein separates Dataset mit mindestens zehn Audiostunden an Validierungsdaten und dem entsprechenden Texttranskript als Grundwahrheit.
Hinweise
Sie müssen sich für ein Google Cloud-Konto registriert, ein Google Cloud-Projekt erstellt und die Speech-to-Text API aktiviert haben:
- Rufen Sie Cloud Storage auf.
- Erstellen Sie einen Bucket, falls Sie noch keinen haben.
Dataset erstellen
Zum Erstellen eines Datasets müssen Sie im Cloud Storage-Bucket Ihrer Wahl zwei Unterverzeichnisse erstellen. Verwenden Sie einfache Namenskonventionen:
- Erstellen Sie das Unterverzeichnis training_dataset, um Ihre Trainingsdateien zu speichern.
- Erstellen Sie das Unterverzeichnis validation_dataset, um Ihre Trainingsdateien zu speichern.
- Laden Sie Ihre Audio- und Textdateien in die Verzeichnisse hoch. Folgen Sie dabei den Richtlinien für die Annotationen zu Grundwahrheiten.
Richtlinien für Datensätze
- Sowohl für Training als auch für Validierung werden die Dateiformate
.wav
für Audiodateien mit LINEAR16-Codierung und.txt
für Textdateien unterstützt, falls verfügbar. Vermeiden Sie Nicht-ASCII-Zeichen in den Dateinamen. - Audiodateien im selben Verzeichnis sollten in separaten TXT-Dateien bereitgestellt werden, die jeweils den gleichen Namen wie die entsprechende WAV-Datei haben, z. B. my_file_1.wav, my_file_1.txt. Pro Audiodatei darf nur eine Transkriptionsdatei vorhanden sein.
Trainingsdaten
- Alle Dateien für das Training müssen im selben Verzeichnis ohne verschachtelte Ordner bereitgestellt werden.
- Optional: Stellen Sie Transkripte für die Audiodateien bereit, sofern verfügbar. Zeitstempel sind nicht erforderlich.
- Achten Sie darauf, dass die Audiolängen Ihrer Audiodateien insgesamt mehr als 100 Stunden betragen. Ist dies nicht der Fall, schlägt der Trainingsjob fehl.
Hier ein Beispiel dafür, wie die Verzeichnisstruktur aussehen sollte, nachdem die Dateien als Trainingsdatensatz hochgeladen wurden:
├── training_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ ├── example_2.txt │ ├── example_3.wav (Note: Audio only instance, without corresponding text) │ └── example_4.wav (Note: Audio only instance, without corresponding text)
Validierungsdaten
- Alle Dateien für die Validierung werden im Verzeichnis validation_dataset ohne verschachtelte Ordner bereitgestellt.
- Validierungsaudio sollte nicht länger als 30 Sekunden sein.
- Stellen Sie Transkriptionen von Grundwahrheiten für jede Audiodatei im selben Verzeichnis in einer separaten TXT-Datei bereit.
Hier ist ein Beispiel dafür, wie die Verzeichnisstruktur aussehen sollte, nachdem die Dateien als Validierungsdatensatz hochgeladen wurden:
├── validation_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ └── example_2.txt
Richtlinien für Grundwahrheiten-Annotationen
Beachten Sie dabei die folgenden Formatierungsanleitungen.
Zahlen
Kardinale und Ordinalzahlen sollten nur in Ziffern transkribiert werden.
- Audio: „Ein Stapel Karten enthält 52 Karten, dreizehn jeweils der vier Farben, Karo, Herzen und Pik.“
- Grundwahrheiten-Text: „Ein Stapel Karten enthält 52 Karten, dreizehn jeweils der vier Farben, Karo, Herzen und Pik.“
Währung und Einheiten
Transkribieren Sie sie so, wie sie üblicherweise in der Transkriptionssprache geschrieben werden. Schreiben Sie alle Einheiten nach Zahlenwerten in der abgekürzten Form. Wenn aus dem Kontext klar ist, dass mit einer Zahl oder Zahlenfolge ein Betrag oder eine Zeitangabe gemeint ist, formatieren Sie sie entsprechend.
Datum und Uhrzeit
Transkribieren Sie in der allgemeinen Form für die in der Transkriptionssprache verwendeten Datumsangaben und Uhrzeiten. Geben Sie Uhrzeiten nach Möglichkeit im Format hh:mm
an.
Adressen
Transkribieren Sie unter Verwendung der vollständigen Namen von Orten, Straßen und Bundesländern, und nutzen Sie Abkürzungen, falls diese explizit gesprochen werden. Entitäten und Standorte sollten mithilfe eines Kommas transkribiert werden.
Eigennamen und Akzente
Mit der offiziellen Schreibweise und Zeichensetzung transkribieren Wenn bei einem Personennamen mehrere Schreibweisen möglich sind und sich keine bestimmte Schreibweise aus dem Kontext ergibt, verwenden Sie die häufigste Schreibweise.
Marken, Produktnamen und Medientitel
Transkribieren Sie sie so, wie sie offiziell formatiert und am häufigsten geschrieben werden.
Interjektionen
Lacher und andere nicht-sprachliche Vokalereignisse sollten mit bis zu drei Silben transkribiert werden. Lacher, die Teil eines Sprachausdrucks sind, sollten vollständig ignoriert werden. Beispiel:
- Audio: „Ha ha ha ha ha“
- Grundwahrheiten-Text: „Hahaha“
Mehrere Sprecher
Trennen Sie mehrere Sprecher nicht durch Sprecher-Tags; die Sprecherbestimmung wird im Allgemeinen nicht unterstützt.
Nächste Schritte
In den folgenden Ressourcen erfahren Sie, wie Sie benutzerdefinierte Sprachmodelle in Ihrer Anwendung nutzen können:
- Benutzerdefinierte Modelle trainieren und verwalten
- Modellendpunkte bereitstellen und verwalten.
- Benutzerdefinierte Modelle verwenden
- Benutzerdefinierte Modelle bewerten