Einführung in die neuesten Modelle

Die Tags des „neusten“ Modells in der Speech-to-Text API gewähren Zugriff auf zwei neue Modelltags, die beim Angeben des Modellfelds verwendet werden können. Diese Modelle bieten Ihnen Zugriff auf die neueste Forschung von Google zu Sprachentechnologie und maschinellem Lernen und können eine höhere Genauigkeit für die Spracherkennung als andere verfügbare Modelle bieten. Einige Features, die von anderen verfügbaren Modellen unterstützt werden, werden jedoch noch nicht von den „neuesten“ Modellen unterstützt.

Die neuesten Modelle basieren auf der Conformer Speech Model-Technologie von Google. Weitere Informationen finden Sie in den Veröffentlichungen des Google Research-Teams.

Für die Verwendung der neuesten Modelle sind allgemeine Kenntnisse der Nutzung der Speech-to-Text API oder UI erforderlich. Lesen Sie die Kurzanleitung, wenn Sie sie zum ersten Mal verwenden.

Modell-Kennzeichnungen

Die neuesten Modelle sind in zwei verschiedenen Versionen verfügbar:

  • Das latest_short-Modell steht für kurze Äußerungen mit einer Länge von einigen Sekunden. Diese Methode ist hilfreich, um Befehle oder andere Anwendungsfälle für die gezielte Sprachausgabe zu erfassen. Verwenden Sie latest_short anstelle des Modells command_and_search.

  • Das latest_long-Modell eignet sich für alle Arten von langen Inhalten, z. B. Medien oder spontane Sprache und Unterhaltungen. Verwenden Sie latest_long anstelle von video, insbesondere wenn video nicht in Ihrer Zielsprache verfügbar ist. Sie können latest_long auch anstelle des default-Modells verwenden.

Modelltechnologie

Das Ziel der neuesten Modelle besteht darin, die neueste Sprachtechnologie direkt für Google Cloud-Nutzer bereitzustellen. Unsere aktuellen neuesten Modelle basieren auf der Conformer Speech Model-Technologie von Google. Dies kann sich jedoch in Zukunft ändern. Weitere Informationen finden Sie in der Google Research Publications-Liste.

Preise

Die Modelle latest_long und latest_short werden als „Standard“ abgerechnet und unterliegen denselben Nutzungsgebühren und Kosten wie die Modelle command_and_search oder default. Weitere Informationen finden Sie unter Preise.

Modellaktualisierungen

Die neuesten Modelle basieren auf fortschrittlichen ML-Technologien. Aus diesem Grund nehmen wir Modellaktualisierungen möglicherweise häufiger als bei unseren anderen Modellen vor. Diese Aktualisierungen können zusätzliche Features hinzufügen oder geringfügige Änderungen an der Genauigkeit oder Latenz vornehmen.

Sprachen

Die neuesten Modelle sind in mehr als 20 Sprachen und über 50 Varianten verfügbar. Wir fügen immer wieder Sprachen hinzu. Eine aktuelle Liste finden Sie unter Sprachen.

Funktionsunterstützung und Einschränkungen

Die Funktionsunterstützung variiert je nach Sprache. Eine vollständige Liste der unterstützten Funktionen finden Sie unter Sprachen.

Die neuesten Modelle unterstützen derzeit folgende Funktionen nicht:

  • Konfidenzwerte: Die API gibt einen Wert zurück, der jedoch kein Konfidenzwert ist.

  • Gewichtung: Nur das Modell en-us unterstützt latest_short.

  • Sprecherbestimmung: Keines der neuesten Modelle unterstützt die Bestimmung.

Service Level Agreement für Modelle

Die neuesten Modelle gelten als allgemein verfügbarer Bestandteil der Speech-to-Text API. Daher ist die Funktionalität, die sie unterstützen, in der v1 API verfügbar und kann für dasselbe Service Level Agreement und andere Schutzmaßnahmen genutzt werden, die auch für allgemein verfügbare Produkte und Features vorgesehen sind.