Cloud Speech-to-Text optimieren

Überblick

Mit der Optimierung von Speech-to-Text können Sie ein vorhandenes Sprachmodell mithilfe Ihrer einzigartigen Audio- und Textdaten anpassen, um die Genauigkeit Ihres Spracherkennungsdienstes zu erhöhen.

Die Optimierung des Sprachmodells kann dazu verwendet werden, ein Basis-Sprachmodell zu erweitern, um die Transkriptionserkennung unter schwierigen akustischen Bedingungen zu verbessern. Dazu zählen Sirenen, laute Geräusche, starke Hintergrundgeräusche, einschließlich Musik oder andere Gespräche sowie besonderes Vokabular, einschließlich kundenspezifischer Produktnamen oder besonderer Terminologie und Akzente.

Das Sprachmodell ist sowohl in unserer Google Cloud Console als auch in der API zugänglich. Damit können Sie ein dediziertes Sprachmodell in einer integrierten Umgebung ohne Code trainieren, bewerten und bereitstellen. Für das Training können Sie nur Audiodaten bereitstellen, die für Ihre Audiobedingungen repräsentativ sind, ohne Referenztranskriptionen als Trainings-Dataset. Sie müssen jedoch Audiodaten und ihre Referenztranskriptionen als Teil des Bewertungssets bereitstellen.

Nächste Schritte

Zum Optimieren der Sprachmodelle in Ihrer Anwendung folgen Sie der nachstehenden Ressource, um das Modell bereitzustellen:

Benutzerdefiniertes Sprachmodell bereitstellen.