従来のモデルから Conformer モデルに移行する

音声文字変換と音声認識の精度とパフォーマンスを向上させるために、Cloud Speech-to-Text V1 API では、API の機能を損なわない方法により、現存する従来の音声モデルを最先端のコンフォーマーベースモデルに更新しています。従来のモデルとは、V1 API で command_and_search、default、phone_call、video モデルフラグのもとに公開されているモデルを指します。これらは個別の音声モデルと言語モデルに基づいており、選択された Speech-to-Text API のユースケースをサポートしています。

2020 年に Google Brain でコンフォーマーアーキテクチャが導入されて以来、Google はソリューションのテストを重ね、Speech-to-Text V1 API モデルを段階的に置き換えてきました。これにより、さまざまなユースケースでドメイン内の精度、堅牢性、パフォーマンスが向上しました。このページでは、移行のメリットと、必要に応じて早期に、または後で移行を有効にする方法について説明します。

変更内容

移行期限を過ぎると、現在公開されているモデルからトラフィックのルーティングが開始されます。リダイレクトは内部的に行われるため、これらのモデル ID は有効なままで、引き続きトラフィックを処理します。

次の表に、移行が有効化した時点で行われるルーティングの概要を示します。リダイレクトは、すでに表示されているモデル ID 間で行われます。必須ではありませんが、お時間のあるときにコードを変更してモデルの動作をテストすることをおすすめします。

BCP-47 コード	現在のモデル ID	single_utterance	トラフィックの転送先となるモデル ID
en-US	`command_and_search`	`false`	`latest_long`
	`command_and_search`	`true`	`latest_short`
	`default`	`false`	`telephony`
	`phone_call`	`false`	`telephony`
	`phone_call(use_enhanced=true)`	`true`	`telephony_short`
	`video`	`false`	`telephony`
de-DE、en-AU、en-GB、en-IN、es-ES、es-US、fr-CA、fr-FR、it-IT、ja-JP、nl-NL、pt-BR	`command_and_search`	`false`	`latest_long`
	`command_and_search`	`true`	`latest_short`
	`default`	`false`	`latest_long`
	`phone_call(use_enhanced=true)`	`true`	`latest_short`
	`phone_call`	`false`	`latest_long`

タイムライン

移行には、このページで説明する 3 つのオプションがあります。2024 年 1 月より、従来のモデルからコンフォーマーベースのモデルへと、トラフィックをプロジェクトごとに段階的に移行し、個々のコミュニケーションを移行前に確立します。2024 年 6 月までに、すべてのトラフィックをコンフォーマーモデルのみに移行する予定です。その時点でも従来モデルをリクエストしているユーザーは、対応するコンフォーマーベースモデルに自動的に再ルーティングされます。

移行のメカニズム

オプトインして早期に移行することも、オプトアウトして後で移行することもできます。それぞれの手順は次のとおりです。

推奨: オプトインして早期に移行する

事前にオプトインする場合は、Speech-to-Text V1 API で使用しているモデル ID を、上の表に示す更新後のモデル ID に変更します。プロジェクトを事前に移行することで、時間をかけてモデルをテストし、向上した精度と堅牢性を早期に活用できます。

オプトアウトして後で移行

更新したモデルに問題があり、移行を一時的にオプトアウトする場合は、 Google Cloud サポートケースを作成してください。サポートケースを作成する際には「Speech-to-Text コンフォーマーの移行をオプトアウトする」というタイトルを使用して、プロジェクト ID とオプトアウトする理由を指定します。

従来のモデルから Conformer モデルに移行する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。