Vertex AI の最新のマルチモーダルモデル、Gemini 1.5 モデルを試して、100 万のトークンコンテキストウィンドウで何を構築できるか確認しましょう。 Vertex AI の最新のマルチモーダルモデル、Gemini 1.5 モデルを試して、100 万のトークンコンテキストウィンドウで何を構築できるか確認しましょう。

最新モデルの概要

Speech-to-Text API の最新のモデルタグを使用すると、モデルフィールドを指定するときに、2 つの新しいモデルタグを使用できます。これらのモデルは、Google の最新の音声技術と機械学習の研究成果を取り入れ、利用可能な他のモデルよりも高い精度で音声認識を行えるように設計されています。ただし、他の利用可能なモデルでサポートされている機能の一部は最新モデルでサポートされていません。

最新のモデルは、Google の Conformer 音声モデル技術に基づいています。詳しくは、Google Research の資料をご覧ください。

最新モデルを使用するには、Speech-to-Text API または UI の使用について全般的な知識が必要です。初めて使用する場合は、クイックスタートをご覧ください。

モデル ID

最新のモデルには、次の 2 つのバージョンがあります。

latest_short モデルは、長さが数秒の短い発話用です。これは、コマンドやその他のシングルショットの音声のユースケースをキャプチャする場合に便利です。command_and_search モデルの代わりに latest_short を使用することを検討してください。
latest_long モデルは、メディアや自発的ななど、あらゆる種類の長いコンテンツに対して使用します。特に、ターゲット言語で video を使用できない場合は、video の代わりに latest_long を使用することを検討してください。default モデルの代わりに latest_long を使用することもできます。

モデル技術

最新モデルは、Google Cloud ユーザーに最新の音声テクノロジーを直接提供することを目標としています。現在の最新モデルは、Google の Conformer 音声モデル技術に基づいていますが、今後変更される可能性があります。詳しくは、Google Research の資料リストをご覧ください。

料金

latest_long モデルと latest_short モデルは標準料金で課金され、command_and_search モデルまたは default モデルと同じ使用量またはコストが適用されます。詳細は、料金をご覧ください。

モデルの更新

最新モデルは、急速に進化する機械学習テクノロジーに基づいています。このため、モデルの更新は他のモデルよりも頻繁に行われる可能性があります。これらの更新により、機能が追加されたり、精度やレイテンシにわずかな変更が行われる可能性があります。

言語

最新モデルは 20 以上の言語と 50 以上のバリアントに対応しています。言語は随時追加されています。最新の情報については、言語をご覧ください。

機能のサポートと制限事項

機能のサポート状況は言語によって異なります。サポートされている機能の一覧については、言語をご覧ください。

現在、最新モデルは以下の機能をサポートしていません。

信頼スコア - API は値を返しますが、実際には信頼スコアではありません。

モデルのサービスレベル契約

最新モデルは、Speech-to-Text API の一般提供に含まれているとみなされます。そのため、サポートされる機能は v1 API で利用可能であり、一般提供されるプロダクトや機能と同じサービスレベル契約およびその他の保護が適用されます。