Die Tags des „neusten“ Modells in der Speech-to-Text API gewähren Zugriff auf zwei neue Modelltags, die beim Angeben des Modellfelds verwendet werden können. Diese Modelle bieten Ihnen Zugriff auf die neueste Forschung von Google zu Sprachentechnologie und maschinellem Lernen und können eine höhere Genauigkeit für die Spracherkennung als andere verfügbare Modelle bieten. Einige Features, die von anderen verfügbaren Modellen unterstützt werden, werden jedoch noch nicht von den „neuesten“ Modellen unterstützt.
Die neuesten Modelle basieren auf der Conformer Speech Model-Technologie von Google. Weitere Informationen finden Sie in den Veröffentlichungen des Google Research-Teams.
Für die Verwendung der neuesten Modelle sind allgemeine Kenntnisse der Nutzung der Speech-to-Text API oder UI erforderlich. Lesen Sie die Kurzanleitung, wenn Sie sie zum ersten Mal verwenden.
Modell-Kennzeichnungen
Die neuesten Modelle sind in zwei verschiedenen Versionen verfügbar:
Das
latest_short
-Modell steht für kurze Äußerungen mit einer Länge von einigen Sekunden. Diese Methode ist hilfreich, um Befehle oder andere Anwendungsfälle für die gezielte Sprachausgabe zu erfassen. Verwenden Sielatest_short
anstelle des Modellscommand_and_search
.Das
latest_long
-Modell eignet sich für alle Arten von langen Inhalten, z. B. Medien oder spontane Sprache und Unterhaltungen. Verwenden Sielatest_long
anstelle vonvideo
, insbesondere wennvideo
nicht in Ihrer Zielsprache verfügbar ist. Sie könnenlatest_long
auch anstelle desdefault
-Modells verwenden.
Modelltechnologie
Das Ziel der neuesten Modelle besteht darin, die neueste Sprachtechnologie direkt für Google Cloud-Nutzer bereitzustellen. Unsere aktuellen neuesten Modelle basieren auf der Conformer Speech Model-Technologie von Google. Dies kann sich jedoch in Zukunft ändern. Weitere Informationen finden Sie in der Google Research Publications-Liste.
Preise
Die Modelle latest_long
und latest_short
werden als „Standard“ abgerechnet und unterliegen denselben Nutzungsgebühren und Kosten wie die Modelle command_and_search
oder default
. Weitere Informationen finden Sie unter Preise.
Modellaktualisierungen
Die neuesten Modelle basieren auf fortschrittlichen ML-Technologien. Aus diesem Grund nehmen wir Modellaktualisierungen möglicherweise häufiger als bei unseren anderen Modellen vor. Diese Aktualisierungen können zusätzliche Features hinzufügen oder geringfügige Änderungen an der Genauigkeit oder Latenz vornehmen.
Sprachen
Die neuesten Modelle sind in mehr als 20 Sprachen und über 50 Varianten verfügbar. Wir fügen immer wieder Sprachen hinzu. Eine aktuelle Liste finden Sie unter Sprachen.
Funktionsunterstützung und Einschränkungen
Die Funktionsunterstützung variiert je nach Sprache. Eine vollständige Liste der unterstützten Funktionen finden Sie unter Sprachen.
Die neuesten Modelle unterstützen derzeit folgende Funktion nicht:
- Konfidenzwerte: Die API gibt einen Wert zurück, der jedoch kein Konfidenzwert ist.
Service Level Agreement für Modelle
Die neuesten Modelle gelten als allgemein verfügbarer Bestandteil der Speech-to-Text API. Daher ist die Funktionalität, die sie unterstützen, in der v1 API verfügbar und kann für dasselbe Service Level Agreement und andere Schutzmaßnahmen genutzt werden, die auch für allgemein verfügbare Produkte und Features vorgesehen sind.