Verhalten bei einzelner gesprochener Eingabe

Speech-to-Text stellt das Modell latest_short zur Erkennung von Sprache bereit, die aus einzelnen gesprochenen Eingaben besteht. Dies kann für Anwendungen nützlich sein, bei denen Nutzer einzelne Sprachbefehle anstatt eines langen Monologs oder Diktats ausgeben.

Wenn ein Recognizer mit dem Modell latest_short für eine Erkennungsanfrage verwendet wird, beendet Speech-to-Text die Erkennung, sobald eine gesprochene Eingabe abgeschlossen ist. Speech-to-Text gibt eine Ereignisantwort für die Sprachaktivität vom Typ END_OF_SINGLE_UTTERANCE zurück, gefolgt von den Transkriptionsergebnissen.

Einzelne gesprochene Eingabe und StreamingRecognize

Falls für die Anfrage StreamingRecognize ein Recognizer mit dem latest_short-Modell ausgewählt ist, schließt Speech-to-Text den Stream automatisch nach dem Ende der Spracheingabe.

Mit Sprachaktivitätsereignissen

Wenn Sprachaktivitätsereignisse auch für eine StreamingRecognize-Anfrage aktiviert wurden, gibt Speech-to-Text weiterhin Ereignisse vom Typ „Anfang/Ende“ für Sprachaktivitätsereignisse zurück. Auch die Zeitlimits von Sprachaktivitäten für den Sprachbeginn werden weiterhin angewendet. Hingegen werden die Zeitlimits von Sprachaktivitäten für das Ende der Sprache nicht weiter angewendet, da der Stream geschlossen wird, sobald die Spracheingabe endet.