音声文字変換モデルの選択

このページでは、Speech-to-Text の音声文字変換リクエストにおいて、特定の機械学習モデルを使用する方法について説明します。

音声文字変換モデル

Speech-to-Text は、入力音声を多数の機械学習モデルのいずれか 1 つと比較して、音声クリップ内の単語を検出します。各モデルは、膨大な数のサンプル(この場合は人の会話に関する多数の音声録音)を分析することでトレーニングを行ってきました。

Speech-to-Text には、特定のソースの音声からトレーニングされた特殊なモデルがあります。これらのモデルは、トレーニングされたデータと同様の種類の音声データに適用した場合、より良い結果をもたらします。

たとえば、Speech-to-Text には、電話で録音された音声を認識するようにトレーニングされた音声文字変換モデルが用意されています。Speech-to-Text が、telephony モデルを使用して電話音声の音声文字変換を行うと、latest_long または medical_dictation モデルを使用して電話音声の音声文字変換を行った場合よりも、精度の高い音声文字変換の結果が得られます。

次の表に、Speech-to-Text で使用可能な音声文字変換モデルを示します。

モデル名 説明
long このモデルは、メディアや自発的な会話など、あらゆる種類の長いコンテンツに対して使用します。「video」モデルまたは「default」モデルの代わりにこのモデルを使用することを検討してください(特にターゲット言語でそれらのモデルを利用できない場合)。
short このモデルは、長さが数秒の短い発話に使用します。これは、コマンドやその他のシングル ショットの音声のユースケースをキャプチャする場合に便利です。command and search モデルの代わりにこのモデルを使用することを検討してください。
telephony このモデルは、電話の音声(通常は 8 kHz のサンプリング レートで録音)に使用します。カスタマー サービス、電話会議、自動キオスク アプリケーションに適しています。
medical_dictation このモデルは、医療従事者が音声入力したメモを音声文字変換するために使用します。たとえば、医師が患者の血液検査結果に関するメモを音声入力する場合などに使用します。
medical_conversation このモデルは、医療従事者(医師や看護師など)と患者の間の会話に使用します。医療従事者と患者の両方が話している場合に、「medical_conversation」モデルを使用してください。発話された言葉が話者別に自動的に検出され、自動的にラベル付けされます。
chirp Google のユニバーサル大規模音声モデル(USM)は、多様な言語コンテンツと多言語機能における最先端の非ストリーミング音声文字変換に使用します。
chirp_telephony 電話の音声(通常は 8 kHz のサンプリング レートで録音)向けにファインチューニングされたユニバーサル大規模音声モデル(USM)です。
chirp_2 Gemini を搭載した Google の次世代ユニバーサル大規模音声モデル(USM)は、多様な言語コンテンツと多言語機能における非ストリーミング音声文字変換と翻訳に使用します。

音声文字変換のモデルを選択する

このモデルは、認識機能によって指定され、認識リクエストに使用されます。speech/projects.locations.recognizers/create を呼び出して認識機能を作成し、model フィールドを使用してモデルを指定します。各言語の有効なモデルは、サポート言語の表で確認できます。