音声文字変換関数を選択する
このドキュメントでは、BigQuery ML で使用可能な音声文字変換関数(ML.GENERATE_TEXT
、ML.TRANSCRIBE
)の比較を行います。
関数の機能が重複している場合は、このドキュメントの情報を使用して、使用する関数を決定できます。
概略を示すと、これらの関数の違いは次のとおりです。
ML.GENERATE_TEXT
は、10 分以下の音声クリップの文字起こしに適しています。また、自然言語処理(NLP)タスクの実行にも使用できます。gemini-1.5-flash
モデルを使用する場合、ML.GENERATE_TEXT
による音声文字変換はML.TRANSCRIBE
による音声文字変換よりも費用が少なくなります。ML.TRANSCRIBE
は、10 分を超える音声クリップの文字変換に適しています。また、ML.GENERATE_TEXT
よりも幅広い言語をサポートしています。
サポートされているモデル
サポートされているモデルは次のとおりです。
ML.GENERATE_TEXT
: Vertex AI Gemini モデルのサブセットを使用してテキストを生成できます。サポートされているモデルの詳細については、ML.GENERATE_TEXT
構文をご覧ください。ML.TRANSCRIBE
: Speech-to-Text API のデフォルト モデルを使用します。Document AI API を使用すると、Chirp 音声モデルによる音声文字変換にアクセスできます。
サポートされているタスク
サポートされているタスクは次のとおりです。
ML.GENERATE_TEXT
: 音声文字変換と自然言語処理(NLP)タスクを実行できます。ML.TRANSCRIBE
: 音声文字変換を実行できます。
料金
料金は次のとおりです。
ML.GENERATE_TEXT
: この関数で使用する Vertex AI モデルの料金については、Vertex AI の料金をご覧ください。サポートされているモデルの教師ありチューニングに対しては、ノード時間あたりの料金で課金されます。詳細については、Vertex AI カスタム トレーニングの料金をご覧ください。ML.TRANSCRIBE
: この関数で使用する Cloud AI サービスの料金については、Speech-to-Text API の料金をご覧ください。
教師ありチューニング
教師ありチューニングのサポートは次のとおりです。
ML.GENERATE_TEXT
: 一部のモデルで教師ありチューニングがサポートされています。ML.TRANSCRIBE
: 教師ありチューニングはサポートされていません。
1 分あたりのクエリ数(QPM)の上限
QPM の上限は次のとおりです。
ML.GENERATE_TEXT
:gemini-1.5-pro
モデルの場合はデフォルトのus-central1
リージョンで 60 QPM、gemini-1.5-flash
モデルの場合はデフォルトのus-central1
リージョンで 200 QPM。詳細については、Vertex AI の生成 AI の割り当てをご覧ください。ML.TRANSCRIBE
: プロジェクトごとに 900 QPM。詳細については、割り当てと上限をご覧ください。
割り当てを増やすには、割り当ての増加をリクエストするをご覧ください。
トークンの上限
トークンの上限は次のとおりです。
ML.GENERATE_TEXT
: 700 個の入力トークンと 8, 196 個の出力トークン。この出力トークンの上限は、ML.GENERATE_TEXT
の個々の音声クリップの上限が約 39 分であることを意味します。ML.TRANSCRIBE
: トークンの上限はありません。ただし、この機能には個々の音声クリップに 480 分という上限があります。
サポートされている言語
サポートされている言語は次のとおりです。
ML.GENERATE_TEXT
: Gemini と同じ言語をサポートします。ML.TRANSCRIBE
: Speech-to-Text でサポートされているすべての言語をサポートしています。
対象リージョン
ご利用対象のリージョンは次のとおりです。
ML.GENERATE_TEXT
: Vertex AI 向けのすべての生成 AI のリージョンで利用できます。ML.TRANSCRIBE
: すべての音声認識ツールで、EU
とUS
のマルチリージョンで利用できます。