Conformer-Modelle (lang und kurz)

Die Tags des „neusten“ Modells in der Speech-to-Text API gewähren Zugriff auf zwei neue Modelltags, die beim Angeben des Modellfelds verwendet werden können. Diese Modelle bieten Ihnen Zugriff auf die neueste Forschung von Google zu Sprachentechnologie und maschinellem Lernen und können eine höhere Genauigkeit für die Spracherkennung als andere verfügbare Modelle bieten. Einige Features, die von anderen verfügbaren Modellen unterstützt werden, werden jedoch noch nicht von den „neuesten“ Modellen unterstützt.

Die neuesten Modelle basieren auf der Conformer Speech Model-Technologie von Google. Weitere Informationen finden Sie in den Veröffentlichungen des Google Research-Teams.

Für die Verwendung der neuesten Modelle sind allgemeine Kenntnisse der Nutzung der Speech-to-Text API oder UI erforderlich. Lesen Sie die Kurzanleitung, wenn Sie sie zum ersten Mal verwenden.

Modell-Kennzeichnungen

Die neuesten Modelle sind in zwei verschiedenen Versionen verfügbar:

Das latest_short-Modell steht für kurze Äußerungen mit einer Länge von einigen Sekunden. Diese Methode ist hilfreich, um Befehle oder andere Anwendungsfälle für die gezielte Sprachausgabe zu erfassen. Wenn Sie dieses Modell verwenden, stoppt der Dienst die Transkription von Audio, nachdem die erste gesprochene Eingabe erkannt und abgeschlossen wurde.

Die separate Erkennung pro Kanal wird von diesem Modell nicht unterstützt. Audiodaten mit mehreren Kanälen werden akzeptiert, aber nur der erste Kanal wird verarbeitet und transkribiert.
Das latest_long-Modell eignet sich für alle Arten von langen Inhalten, z. B. Medien oder spontane Sprache und Unterhaltungen.

Modelltechnologie

Das Ziel der neuesten Modelle besteht darin, die neueste Sprachtechnologie direkt für Google Cloud-Nutzer bereitzustellen. Unsere aktuellen neuesten Modelle basieren auf der Conformer Speech Model-Technologie von Google. Dies kann sich jedoch in Zukunft ändern. Weitere Informationen finden Sie in der Google Research Publications-Liste.

Preise

Die Modelle latest_long und latest_short werden als "Standard" abgerechnet. Weitere Informationen finden Sie unter Preise.

Modellaktualisierungen

Die neuesten Modelle basieren auf fortschrittlichen ML-Technologien. Aus diesem Grund nehmen wir Modellaktualisierungen möglicherweise häufiger als bei unseren anderen Modellen vor. Diese Aktualisierungen können zusätzliche Features hinzufügen oder geringfügige Änderungen an der Genauigkeit oder Latenz vornehmen.

Sprachen

Die neuesten Modelle sind in mehr als 20 Sprachen und über 50 Varianten verfügbar. Wir fügen immer wieder Sprachen hinzu. Eine aktuelle Liste finden Sie unter Sprachen.

Funktionsunterstützung und Einschränkungen

Die Funktionsunterstützung variiert je nach Sprache. Eine vollständige Liste der unterstützten Funktionen finden Sie unter Sprachen.

Die neuesten Modelle unterstützen derzeit folgende Funktionen nicht:

Konfidenzwerte: Die API gibt einen Wert zurück, der jedoch kein Konfidenzwert ist.
Sprecherbestimmung: Keines der neuesten Modelle unterstützt die Bestimmung.