Auf dieser Seite wird beschrieben, wie Sie ein bestimmtes Modell für maschinelles Lernen für Audiotranskriptionsanfragen an Speech-to-Text verwenden.
Transkriptionsmodelle
Speech-to-Text erkennt Wörter in einem Audioclip durch den Vergleich der Eingabe mit einem von vielen Modellen für maschinelles Lernen. Jedes Modell wurde durch die Analyse von Millionen Beispielen trainiert – in diesem Fall durch sehr viele Audioaufnahmen von sprechenden Personen.
Speech-to-Text verfügt über spezielle Modelle, die anhand von Audiodaten aus bestimmten Quellen trainiert wurden. Diese Modelle liefern bessere Ergebnisse, wenn sie auf ähnliche Audiodaten wie die Daten angewendet werden, mit denen sie trainiert wurden.
Zum Beispiel hat Speech-to-Text ein Transkriptionsmodell, das dafür trainiert wurde, von einem Telefon aufgenommene Sprache zu erkennen. Wenn Speech-to-Text das Modell telephony
für die Transkription von Smartphone-Audiodaten verwendet, so werden genauere Transkriptionsergebnisse als mit den Modellen short
oder long
erzeugt.
Die folgende Tabelle zeigt die Transkriptionsmodelle, die für Speech-to-Text verwendet werden können.
Modellname | Beschreibung |
---|---|
long |
Verwenden Sie dieses Modell für alle Arten von langen Inhalten wie Medien oder spontane Sprache und Unterhaltungen. Verwenden Sie dieses Modell anstelle des Modells „video“ oder „default“, insbesondere wenn diese nicht in Ihrer Zielsprache verfügbar sind. |
short |
Verwenden Sie dieses Modell für kurze Äußerungen, die einige Sekunden lang sind. Diese Methode ist hilfreich, um Befehle oder andere Anwendungsfälle für die gezielte Sprachausgabe zu erfassen. Verwenden Sie dieses Modell anstelle des Befehls- und Suchmodells. |
telephony |
Verwenden Sie dieses Modell für Audiodaten, die aus einem Telefonanruf stammen und in der Regel mit einer Abtastrate von 8 kHz aufgezeichnet wurden. Ideal für Kundenservice, Videokonferenzen und automatisierte Kioske. |
medical_dictation |
Verwenden Sie dieses Modell, um Notizen zu transkribieren, die von einer medizinischen Fachkraft geschrieben wurden, z. B. einem Arzt, der Notizen zu den Bluttestergebnissen eines Patienten schreibt. |
medical_conversation |
Verwenden Sie dieses Modell für Unterhaltungen zwischen einem Gesundheitsdienstleister (z. B. einem Arzt oder Krankenpfleger) und einem Patienten. Verwenden Sie das Modell „medical_conversation“, wenn sowohl der Dienstleister als auch der Patient spricht. Alle gesprochenen Wörter der einzelnen Sprecher werden automatisch erkannt und automatisch mit Labels versehen. |
chirp_2 |
Nutzen Sie die nächste Generation unseres Universal Speech Model (USM), das auf unserer Large Language Model-Technologie basiert, für Streaming und Batch-Verarbeitung sowie für Transkriptionen und Übersetzungen in verschiedenen Sprachinhalten und mehrsprachigen Funktionen. |
chirp_telephony |
Universal Speech Model(USM), optimiert für Audiodaten, die aus einem Telefonanruf stammen (normalerweise mit einer Abtastrate von 8 kHz aufgezeichnet). |
chirp |
Mit unserem Universal Speech Model(USM) erhalten Sie hochmoderne Transkripte ohne Streaming in verschiedenen Sprachen und mit mehrsprachigen Funktionen. |
Ein Modell für die Audiotranskription wählen
Das Modell wird durch den für die Erkennungsanfrage verwendete Recognizer angegeben. Rufen Sie speech/projects.locations.recognizers/create
auf, um einen Recognizer, d. h. ein Erkennungsmodul, zu erstellen und geben Sie das Modell im Feld model
an. Gültige Modelle für jede Sprache finden Sie in der Tabelle Unterstützte Sprachen.