Auf dieser Seite wird beschrieben, wie Sie ein bestimmtes Modell für maschinelles Lernen für Audiotranskriptionsanfragen an Speech-to-Text verwenden.
Transkriptionsmodelle
Speech-to-Text erkennt Wörter in einem Audioclip durch den Vergleich der Eingabe mit einem von vielen Modellen für maschinelles Lernen. Jedes Modell wurde durch die Analyse von Millionen Beispielen trainiert – in diesem Fall durch sehr viele Audioaufnahmen von sprechenden Personen.
Speech-to-Text verfügt über spezielle Modelle, die anhand von Audiodaten aus bestimmten Quellen trainiert wurden. Diese Modelle liefern bessere Ergebnisse, wenn sie auf ähnliche Audiodaten wie die Daten angewendet werden, mit denen sie trainiert wurden.
Die folgende Tabelle zeigt die Transkriptionsmodelle, die für die Speech-to-Text V2 API verfügbar sind.
Modellname | Beschreibung |
---|---|
chirp_3 |
Nutzen Sie die neueste Generation der mehrsprachigen generativen Modelle für die automatische Spracherkennung (Automatic Speech Recognition, ASR) von Google, die auf Grundlage von Feedback und Erfahrung auf die Bedürfnisse Ihrer Nutzer zugeschnitten sind. Chirp 3 bietet eine höhere Genauigkeit und Geschwindigkeit als frühere Chirp-Modelle und ermöglicht die Sprecherzuordnung und automatische Spracherkennung. |
chirp_2 |
Nutzen Sie die nächste Generation unseres Universal Speech Model (USM), das auf unserer LLM-Technologie (Large Language Model) basiert, für Streaming und Batch sowie für Transkriptionen und Übersetzungen in verschiedenen sprachlichen Inhalten und mehrsprachigen Funktionen. |
telephony |
Verwenden Sie dieses Modell für Audiodaten, die aus einem Telefonanruf stammen und in der Regel mit einer Abtastrate von 8 kHz aufgezeichnet wurden. Ideal für Kundenservice, Telefonkonferenzen und automatisierte Kioskanwendungen. |
Die folgenden Modelle basieren auf früheren Architekturen. Sie werden nicht aktiv gepflegt und werden in erster Linie aus Legacy-Gründen und Gründen der Rückwärtskompatibilität beibehalten.
chirp |
Unser Universal Speech Model (USM) bietet modernste Transkriptionen ohne Streaming für vielfältige sprachliche Inhalte und mehrsprachige Funktionen. |
chirp_telephony |
Universelles großes Sprachmodell (Universal Speech Model, USM), das für Audiodaten optimiert wurde, die aus einem Telefonanruf stammen (normalerweise mit einer Abtastrate von 8 kHz aufgezeichnet). |
long |
Verwenden Sie dieses Modell für alle Arten von langen Inhalten wie Medien oder spontane Sprache und Unterhaltungen. Verwenden Sie dieses Modell anstelle des video - oder des default -Modells, insbesondere wenn diese nicht in Ihrer Zielsprache verfügbar sind. |
short |
Verwenden Sie dieses Modell für kurze Äußerungen, die einige Sekunden lang sind. Diese Methode ist hilfreich, um Befehle oder andere Anwendungsfälle für die gezielte Sprachausgabe zu erfassen. Verwenden Sie dieses Modell anstelle des Befehls- und Suchmodells. |
telephony_short |
Dedizierte Version des telephony -Modells für kurze oder sogar aus einem Wort bestehende Äußerungen, die aus einem Telefonanruf stammen und in der Regel mit einer Abtastrate von 8 kHz aufgezeichnet wurden. Nützlich für Äußerungen von nur wenigen Sekunden im Kundenservice, bei Telefonkonferenzen und in automatisierten Kioskanwendungen. |
medical_conversation |
Verwenden Sie dieses Modell für Unterhaltungen zwischen einem Gesundheitsdienstleister (z. B. einem Arzt oder Krankenpfleger) und einem Patienten. Verwenden Sie das Modell medical_conversation , wenn sowohl der Anbieter als auch der Patient spricht. Alle gesprochenen Wörter werden automatisch erkannt und mit Labels versehen. |
medical_dictation |
Verwenden Sie dieses Modell, um Notizen zu transkribieren, die von einer medizinischen Fachkraft geschrieben wurden, z. B. einem Arzt, der Notizen zu den Bluttestergebnissen eines Patienten schreibt. |
Ein Modell für die Audiotranskription wählen
Das Modell wird durch den für die Erkennungsanfrage verwendete Recognizer angegeben. Rufen Sie speech/projects.locations.recognizers/create
auf, um einen Recognizer, d. h. ein Erkennungsmodul, zu erstellen und geben Sie das Modell im Feld model
an. Gültige Modelle für die einzelnen Sprachen finden Sie in der Tabelle Unterstützte Sprachen.