Modelle bewerten

Verwenden Sie die Benchmarking-Funktion der Cloud Speech-to-Text-Konsole, um die Accuracy eines in der Speech-to-Text V2 API verwendeten Transkriptionsmodells zu messen.

Die Cloud Speech-to-Text-Konsole bietet visuelles Benchmarking für vortrainierte und benutzerdefinierte Speech-to-Text-Modelle. Zum Prüfen der Erkennungsqualität können Sie die Word-Error-Rate (WER)-Bewertungsmesswerte mehrerer Transkriptionsmodelle vergleichen. So können Sie entscheiden, welches Modell am besten zu Ihrer Anwendung passt.

Hinweise

Sie müssen sich für ein Google Cloud-Konto registriert, ein Projekt erstellt, ein benutzerdefiniertes Sprachmodell trainiert und ein Endpunkt bereitgestellt haben.

Grundwahrheiten-Dataset erstellen

Erfassen Sie Audiobeispiele, die genau den Traffic widerspiegeln, mit dem das Transkriptionsmodell in einer Produktionsumgebung rechnen wird, um ein benutzerdefiniertes Benchmarking-Dataset zu erstellen. Die Gesamtdauer dieser Audiodateien sollte idealerweise mindestens 30 Minuten und nicht mehr als 10 Stunden betragen. Zum Zusammenstellen des Datasets führen Sie folgende Schritte aus:

Erstellen Sie ein Verzeichnis in einem Cloud Storage-Bucket Ihrer Wahl, um die Audio- und Textdateien für das Dataset zu speichern.
Erstellen Sie für jede Audiodatei im Dataset hinreichend korrekte Transkriptionen. Für jede Audiodatei (z. B. example_audio_1.wav) muss eine entsprechende Grundwahrheiten-Textdatei (example_audio_1.txt) erstellt werden. Dieser Dienst verwendet solche Audio-Text-Kopplungen in einem Cloud Storage-Bucket, um das Dataset zusammenzustellen.

Modell vergleichen

Um das benutzerdefinierte Speech-to-Text-Modell und Ihr Benchmarking-Dataset zur Bewertung der Accuracy Ihres Modells zu nutzen, folgen Sie dem Leitfaden zum Messen und Verbessern der Accuracy.