Von klassischen zu Conformer-Modellen migrieren

Um die Transkriptions- und Spracherkennungsgenauigkeit und die Leistung zu verbessern, aktualisiert die Cloud Speech-to-Text V1 API die verbleibenden klassischen Sprachmodelle auf hochmoderne Conformer-basierte Modelle so, dass sie die API-Funktionalität nicht beeinträchtigen. Klassische Modelle sind die Modelle, die in der V1 API unter den Modellflags command_and_search, default, phone_call und video verfügbar sind. Sie basieren auf diskreten akustischen und Sprachmodellen und werden für ausgewählte Anwendungsfälle der Speech-to-Text API verwendet.

Seit der Einführung der Conformer-Architektur im Jahr 2020 bei Google Brain haben wir unsere Lösung getestet und unsere Speech-to-Text V1 API-Modelle nach und nach ersetzt. Dadurch wurden die Genauigkeit, Robustheit und Leistung in der Domain für eine Reihe von Anwendungsfällen verbessert. Auf dieser Seite finden Sie eine Anleitung dazu, wie Sie von der Migration profitieren und wie Sie die Migration je nach Bedarf früher oder später aktivieren können.

Was ändert sich?

Nach Ablauf des Migrationstermins werden Zugriffe nicht mehr an die derzeit freigegebenen Modelle weitergeleitet. Diese Modell-IDs bleiben gültig und es werden weiterhin Zugriffe erzielt, da die Weiterleitung intern erfolgt.

In dieser Tabelle sehen Sie, wie die Weiterleitung nach der Migration erfolgt. Die Weiterleitung erfolgt zwischen den bereits sichtbaren Modell-IDs. Sie können Codeänderungen vornehmen und das Modellverhalten in Ihrem eigenen Tempo testen.

BCP-47-Code Aktuelle Modell-ID single_utterance Zugriff auf die Modell-ID
en-US command_and_search false latest_long
command_and_search true latest_short
default false telephony
phone_call false telephony
phone_call(use_enhanced=true) true telephony_short
video false telephony
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR command_and_search false latest_long
command_and_search true latest_short
default false latest_long
phone_call(use_enhanced=true) true latest_short
phone_call false latest_long

Zeitachse

Sie haben drei Migrationsoptionen, die auf dieser Seite beschrieben werden. Im Januar 2024 wird der Traffic schrittweise von den klassischen Modellen auf das Projekt mit konformen Konfigurationen übertragen. Dabei erfolgt die individuelle Kommunikation vor der Migration. Bis Juni 2024 erwarten wir, dass der gesamte Traffic nur noch auf die Conformer-Modelle übertragen wird. Nutzer, die weiterhin die klassischen Modelle anfordern, werden automatisch an die entsprechenden Conformer-basierten Modelle weitergeleitet.

Migrationsmechanismus

Kunden können die Funktion früher aktivieren oder deaktivieren und später migrieren. Folgen Sie dazu dieser Anleitung:

Bevorzugt: Funktion aktivieren und früher migrieren

Wenn Sie die Funktion proaktiv aktivieren möchten, ändern Sie die Modell-ID, die Sie in der Speech-to-Text API V1 verwendet haben, in die aktualisierte ID, wie in der Tabelle oben angegeben. Wenn Sie Ihr Projekt proaktiv migrieren, haben Sie Zeit, die Modelle zu testen und die Vorteile der verbesserten Genauigkeit und Robustheit früher zu nutzen.

Deaktivierung und spätere Migration

Wenn Sie Probleme mit den aktualisierten Modellen feststellen und die Migration vorübergehend deaktivieren möchten, erstellen Sie einen Google Cloud-Supportfall. Verwenden Sie beim Erstellen des Supportfalls den Titel "Speech-to-Text-Konformitätsmigration deaktivieren" und geben Sie Ihre Projekt-IDs und den Grund für die Deaktivierung an.