Speech-to-Text API の最新のモデルタグを使用すると、モデル フィールドを指定するときに、2 つの新しいモデルタグを使用できます。これらのモデルは、Google の最新の音声技術と機械学習の研究成果を取り入れ、利用可能な他のモデルよりも高い精度で音声認識を行えるように設計されています。ただし、他の利用可能なモデルでサポートされている機能の一部は最新モデルでサポートされていません。
最新のモデルは、Google の Conformer 音声モデル技術に基づいています。詳しくは、Google Research の資料をご覧ください。
最新モデルを使用するには、Speech-to-Text API または UI の使用について全般的な知識が必要です。初めて使用する場合は、クイックスタートをご覧ください。
モデル ID
最新のモデルには、次の 2 つのバージョンがあります。
latest_short
モデルは、長さが数秒の短い発話用です。これは、コマンドやその他のシングルショットの音声のユースケースをキャプチャする場合に便利です。このモデルを使用する場合、最初の発話が検出されて完了すると音声文字変換が停止します。このモデルでは、チャンネルごとに個別の認識を行うことはできません。マルチチャンネル オーディオは受け入れられますが、最初のチャンネルのみが処理されて音声文字変換されます。
latest_long
モデルは、メディアや自発的な会話など、あらゆる種類の長いコンテンツに対して使用します。
モデル技術
最新モデルは、Google Cloud ユーザーに最新の音声テクノロジーを直接提供することを目標としています。現在の最新モデルは、Google の Conformer 音声モデル技術に基づいていますが、今後変更される可能性があります。詳しくは、Google Research の資料リストをご覧ください。
料金
latest_long
モデルと latest_short
モデルは標準料金で課金されます。詳細は、料金をご覧ください。
モデルの更新
最新モデルは、急速に進化する機械学習テクノロジーに基づいています。このため、モデルの更新は他のモデルよりも頻繁に行われる可能性があります。これらの更新により、機能が追加されたり、精度やレイテンシにわずかな変更が行われる可能性があります。
言語
最新モデルは 20 以上の言語と 50 以上のバリアントに対応しています。言語は随時追加されています。最新の情報については、言語をご覧ください。
機能のサポートと制限事項
機能のサポート状況は言語によって異なります。サポートされている機能の一覧については、言語をご覧ください。
現在、最新モデルは以下の機能をサポートしていません。
信頼スコア - API は値を返しますが、実際には信頼スコアではありません。
ダイアライゼーション - どちらの最新のモデルもダイアライゼーションをサポートしていません。