Verwenden Sie die Benchmarking-Funktion der Cloud Speech-to-Text-Konsole, um die Accuracy eines in der Speech-to-Text V2 API verwendeten Transkriptionsmodells zu messen.
Die Cloud Speech-to-Text-Konsole bietet visuelles Benchmarking für vortrainierte und benutzerdefinierte Speech-to-Text-Modelle. Sie können die Erkennungsqualität prüfen, indem Sie die Bewertungsmesswerte für die Wortfehlerrate (WER) verschiedener Transkriptionsmodelle vergleichen. So können Sie entscheiden, welches Modell am besten zu Ihrer Anwendung passt.
Hinweis
Sie müssen sich für ein Google Cloud -Konto registriert, ein Projekt erstellt, ein benutzerdefiniertes Sprachmodell trainiert und über einen Endpunkt bereitgestellt haben.
Grundwahrheiten-Dataset erstellen
Erfassen Sie Audiobeispiele, die genau den Traffic widerspiegeln, mit dem das Transkriptionsmodell in einer Produktionsumgebung rechnen wird, um ein benutzerdefiniertes Benchmarking-Dataset zu erstellen. Die Gesamtdauer dieser Audiodateien sollte idealerweise mindestens 30 Minuten und maximal 10 Stunden betragen. Für die Zusammenstellung des Datensatzes müssen Sie Folgendes tun:
- Erstellen Sie ein Verzeichnis in einem Cloud Storage-Bucket Ihrer Wahl, um die Audio- und Textdateien für das Dataset zu speichern.
- Erstellen Sie für jede Audiodatei im Datensatz hinreichend genaue Transkripte. Für jede Audiodatei (z. B.
example_audio_1.wav
) muss eine entsprechende Grundwahrheiten-Textdatei (example_audio_1.txt
) erstellt werden. Dieser Dienst verwendet solche Audio-Text-Kopplungen in einem Cloud Storage-Bucket, um das Dataset zusammenzustellen.
Modell mit Benchmarking vergleichen
Um das benutzerdefinierte Speech-to-Text-Modell und Ihr Benchmarking-Dataset zur Bewertung der Accuracy Ihres Modells zu nutzen, folgen Sie dem Leitfaden zum Messen und Verbessern der Accuracy.