Verwenden Sie die Benchmarking-Funktion der Cloud Speech-to-Text-Konsole, um die Accuracy eines in der Speech-to-Text V2 API verwendeten Transkriptionsmodells zu messen.
Die Cloud Speech-to-Text-Konsole bietet visuelles Benchmarking für vortrainierte und benutzerdefinierte Speech-to-Text-Modelle. Zum Prüfen der Erkennungsqualität können Sie die Word-Error-Rate (WER)-Bewertungsmesswerte mehrerer Transkriptionsmodelle vergleichen. So können Sie entscheiden, welches Modell am besten zu Ihrer Anwendung passt.
Hinweise
Sie müssen sich für ein Google Cloud-Konto registriert, ein Projekt erstellt, ein benutzerdefiniertes Sprachmodell trainiert und ein Endpunkt bereitgestellt haben.
Grundwahrheiten-Dataset erstellen
Erfassen Sie Audiobeispiele, die genau den Traffic widerspiegeln, mit dem das Transkriptionsmodell in einer Produktionsumgebung rechnen wird, um ein benutzerdefiniertes Benchmarking-Dataset zu erstellen. Die Gesamtdauer dieser Audiodateien sollte idealerweise mindestens 30 Minuten und nicht mehr als 10 Stunden betragen. Zum Zusammenstellen des Datasets führen Sie folgende Schritte aus:
- Erstellen Sie ein Verzeichnis in einem Cloud Storage-Bucket Ihrer Wahl, um die Audio- und Textdateien für das Dataset zu speichern.
- Erstellen Sie für jede Audiodatei im Dataset hinreichend korrekte Transkriptionen. Für jede Audiodatei (z. B.
example_audio_1.wav
) muss eine entsprechende Grundwahrheiten-Textdatei (example_audio_1.txt
) erstellt werden. Dieser Dienst verwendet solche Audio-Text-Kopplungen in einem Cloud Storage-Bucket, um das Dataset zusammenzustellen.
Modell vergleichen
Um das benutzerdefinierte Speech-to-Text-Modell und Ihr Benchmarking-Dataset zur Bewertung der Accuracy Ihres Modells zu nutzen, folgen Sie dem Leitfaden zum Messen und Verbessern der Accuracy.