音声文字変換モデルの選択

このページでは、Speech-to-Text の音声文字変換リクエストにおいて、特定の機械学習モデルを使用する方法について説明します。

音声文字変換モデル

Speech-to-Text は、入力音声を多数の機械学習モデルのいずれか 1 つと比較して、音声クリップ内の単語を検出します。各モデルは、膨大な数のサンプル(この場合は人の会話に関する多数の音声録音)を分析することでトレーニングを行ってきました。

Speech-to-Text には、特定のソースの音声からトレーニングされた特殊なモデルがあります。これらのモデルは、トレーニングされたデータと同様の種類の音声データに適用した場合、より良い結果をもたらします。

たとえば、Speech-to-Text には、電話で録音された音声を認識するようにトレーニングされた音声文字変換モデルが用意されています。Speech-to-Text が、telephony モデルを使用して電話音声の音声文字変換を行うと、latest_long または medical_dictation モデルを使用して電話音声の音声文字変換を行った場合よりも、精度の高い音声文字変換の結果が得られます。

次の表に、Speech-to-Text で使用可能な音声文字変換モデルを示します。

モデル名 説明
long このモデルは、メディアや自発的な会話など、あらゆる種類の長いコンテンツに対して使用します。
short このモデルは、長さが数秒の短い発話に使用します。これは、コマンドやその他のシングルショットの音声のユースケースをキャプチャする場合に便利です。このモデルを使用する場合、最初の発話が検出されて完了すると音声文字変換が停止します。このモデルでは、チャンネルごとの個別の認識はサポートされていません。マルチチャンネル音声はサービスで受け入れられますが、最初のチャンネルのみが処理され、認識されます。
telephony 電話の通話音声に最適です(通常は 8 kHz のサンプリング レートで録音されています)。
medical_dictation このモデルは、医療従事者が音声入力したメモを音声文字変換するために使用します。たとえば、医師が患者の血液検査結果に関するメモを音声入力する場合などに使用します。
medical_conversation このモデルは、医療従事者(医師や看護師など)と患者の間の会話に使用します。このモデルは、医療従事者と患者の両方が話している場合に使用します。話者ごとに発話された単語は自動的に検出され、返された音声文字変換でラベル付けされます。
chirp 統合された大規模な音声モデル。このモデルは、ストリーミングを必要としないあらゆるユースケースに使用できます。

音声文字変換のモデルを選択する

このモデルは、認識機能によって指定され、認識リクエストに使用されます。speech/projects.locations.recognizers/create を呼び出して認識機能を作成し、model フィールドを使用してモデルを指定します。各言語の有効なモデルは、サポート言語の表で確認できます。