音声文字変換と音声認識の精度とパフォーマンスを向上させるために、Cloud Speech-to-Text V1 API では、API の機能を損なわない方法により、現存する従来の音声モデルを最先端のコンフォーマー ベースモデルに更新しています。従来のモデルとは、V1 API で command_and_search
、default
、phone_call
、video
モデルフラグのもとに公開されているモデルを指します。これらは個別の音声モデルと言語モデルに基づいており、選択された Speech-to-Text API のユースケースをサポートしています。
2020 年に Google Brain でコンフォーマー アーキテクチャが導入されて以来、Google はソリューションのテストを重ね、Speech-to-Text V1 API モデルを段階的に置き換えてきました。これにより、さまざまなユースケースでドメイン内の精度、堅牢性、パフォーマンスが向上しました。このページでは、移行のメリットと、必要に応じて早期に、または後で移行を有効にする方法について説明します。
変更内容
移行期限を過ぎると、現在公開されているモデルからトラフィックのルーティングが開始されます。リダイレクトは内部的に行われるため、これらのモデル ID は有効なままで、引き続きトラフィックを処理します。
次の表に、移行が有効化した時点で行われるルーティングの概要を示します。リダイレクトは、すでに表示されているモデル ID 間で行われます。必須ではありませんが、お時間のあるときにコードを変更してモデルの動作をテストすることをおすすめします。
BCP-47 コード | 現在のモデル ID | single_utterance | トラフィックの転送先となるモデル ID |
---|---|---|---|
en-US | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
telephony |
|
phone_call |
false |
telephony |
|
phone_call(use_enhanced=true) |
true |
telephony_short |
|
video |
false |
telephony |
|
de-DE、en-AU、en-GB、en-IN、es-ES、es-US、fr-CA、fr-FR、it-IT、ja-JP、nl-NL、pt-BR | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
latest_long |
|
phone_call(use_enhanced=true) |
true |
latest_short |
|
phone_call |
false |
latest_long |
タイムライン
移行には、このページで説明する 3 つのオプションがあります。2024 年 1 月より、従来のモデルからコンフォーマー ベースのモデルへと、トラフィックをプロジェクトごとに段階的に移行し、個々のコミュニケーションを移行前に確立します。2024 年 6 月までに、すべてのトラフィックをコンフォーマー モデルのみに移行する予定です。その時点でも従来モデルをリクエストしているユーザーは、対応するコンフォーマー ベース モデルに自動的に再ルーティングされます。
移行のメカニズム
オプトインして早期に移行することも、オプトアウトして後で移行することもできます。それぞれの手順は次のとおりです。
推奨: オプトインして早期に移行する
事前にオプトインする場合は、Speech-to-Text V1 API で使用しているモデル ID を、上の表に示す更新後のモデル ID に変更します。プロジェクトを事前に移行することで、時間をかけてモデルをテストし、向上した精度と堅牢性を早期に活用できます。
オプトアウトして後で移行する
更新したモデルに問題があり、移行を一時的にオプトアウトする場合は、Google Cloud サポートケースを作成してください。 サポートケースを作成する際には「Speech-to-Text コンフォーマーの移行をオプトアウトする」というタイトルを使用して、プロジェクト ID とオプトアウトする理由を指定します。