Speech-to-Text API の最新のモデルタグを使用すると、モデル フィールドを指定するときに、2 つの新しいモデルタグを使用できます。これらのモデルは、Google の最新の音声技術と機械学習の研究成果を取り入れ、利用可能な他のモデルよりも高い精度で音声認識を行えるように設計されています。ただし、他の利用可能なモデルでサポートされている機能の一部は最新モデルでサポートされていません。
最新のモデルは、Google の Conformer 音声モデル技術に基づいています。詳しくは、Google Research の資料をご覧ください。
最新モデルを使用するには、Speech-to-Text API または UI の使用について全般的な知識が必要です。初めて使用する場合は、クイックスタートをご覧ください。
モデル ID
最新のモデルには、次の 2 つのバージョンがあります。
latest_short
モデルは、長さが数秒の短い発話用です。これは、コマンドやその他のシングルショットの音声のユースケースをキャプチャする場合に便利です。command_and_search
モデルの代わりにlatest_short
を使用することを検討してください。latest_long
モデルは、メディアや自発的ななど、あらゆる種類の長いコンテンツに対して使用します。特に、ターゲット言語でvideo
を使用できない場合は、video
の代わりにlatest_long
を使用することを検討してください。default
モデルの代わりにlatest_long
を使用することもできます。
モデル技術
最新モデルは、Google Cloud ユーザーに最新の音声テクノロジーを直接提供することを目標としています。現在の最新モデルは、Google の Conformer 音声モデル技術に基づいていますが、今後変更される可能性があります。詳しくは、Google Research の資料リストをご覧ください。
料金
latest_long
モデルと latest_short
モデルは標準料金で課金され、command_and_search
モデルまたは default
モデルと同じ使用量またはコストが適用されます。詳細は、料金をご覧ください。
モデルの更新
最新モデルは、急速に進化する機械学習テクノロジーに基づいています。このため、モデルの更新は他のモデルよりも頻繁に行われる可能性があります。これらの更新により、機能が追加されたり、精度やレイテンシにわずかな変更が行われる可能性があります。
言語
最新モデルは 20 以上の言語と 50 以上のバリアントに対応しています。言語は随時追加されています。最新の情報については、言語をご覧ください。
機能のサポートと制限事項
機能のサポート状況は言語によって異なります。サポートされている機能の一覧については、言語をご覧ください。
現在、最新モデルは以下の機能をサポートしていません。
- 信頼スコア - API は値を返しますが、実際には信頼スコアではありません。
モデルのサービスレベル契約
最新モデルは、Speech-to-Text API の一般提供に含まれているとみなされます。そのため、サポートされる機能は v1 API で利用可能であり、一般提供されるプロダクトや機能と同じサービスレベル契約およびその他の保護が適用されます。