Verwenden Sie die Benchmarking-Funktion der Cloud Cloud Speech-to-Text-Konsole, um die Accuracy eines in der Speech-to-Text V2 API verwendeten Transkriptionsmodells zu messen.
Die Cloud Cloud Speech-to-Text-Konsole bietet visuelles Benchmarking für vortrainierte und benutzerdefinierte Speech-to-Text-Modelle. Sie können die Erkennungsqualität prüfen, indem Sie die WER-Bewertungsmesswerte (Word-Error-Rate) mehrerer Transkriptionsmodelle vergleichen. So können Sie entscheiden, welches Modell am besten für Ihre Anwendung geeignet ist.
Hinweis
Sie müssen sich für ein Konto von Google Cloud registriert, ein Projekt erstellt, ein benutzerdefiniertes Sprachmodell trainiert und ein Endpunkt bereitgestellt haben.
Grundwahrheiten-Dataset erstellen
Erfassen Sie Audiobeispiele, die genau den Traffic widerspiegeln, mit dem das Transkriptionsmodell in einer Produktionsumgebung rechnen wird, um ein benutzerdefiniertes Benchmarking-Dataset zu erstellen. Die Gesamtdauer dieser Audiodateien sollte idealerweise mindestens 30 Minuten und maximal 10 Stunden betragen. So stellen Sie das Dataset zusammen:
- Erstellen Sie ein Verzeichnis in einem Cloud Storage-Bucket Ihrer Wahl, um die Audio- und Textdateien für das Dataset zu speichern.
- Erstelle für jede Audiodatei im Datensatz möglichst genaue Transkriptionen. Für jede Audiodatei (z. B.
example_audio_1.wav) muss eine entsprechende Grundwahrheiten-Textdatei (example_audio_1.txt) erstellt werden. Dieser Dienst verwendet solche Audio-Text-Kopplungen in einem Cloud Storage-Bucket, um das Dataset zusammenzustellen.
Modell-Benchmarking durchführen
Um das benutzerdefinierte Speech-to-Text-Modell und Ihr Benchmarking-Dataset zur Bewertung der Genauigkeit Ihres Modells zu nutzen, folgen Sie der Anleitung unter Genauigkeit messen und verbessern.