音声文字変換関数を選択する

このドキュメントでは、BigQuery ML で使用可能な音声文字変換関数(ML.GENERATE_TEXTML.TRANSCRIBE)の比較を行います。

関数の機能が重複している場合は、このドキュメントの情報を使用して、使用する関数を決定できます。

概略を示すと、これらの関数の違いは次のとおりです。

  • ML.GENERATE_TEXT は、10 分以下の音声クリップの文字起こしに適しています。また、自然言語処理(NLP)タスクの実行にも使用できます。gemini-1.5-flash モデルを使用する場合、ML.GENERATE_TEXT による音声文字変換は ML.TRANSCRIBE による音声文字変換よりも費用が少なくなります。

  • ML.TRANSCRIBE は、10 分を超える音声クリップの文字変換に適しています。また、ML.GENERATE_TEXT よりも幅広い言語をサポートしています。

サポートされているモデル

サポートされているモデルは次のとおりです。

  • ML.GENERATE_TEXT: Vertex AI Gemini モデルのサブセットを使用してテキストを生成できます。サポートされているモデルの詳細については、ML.GENERATE_TEXT 構文をご覧ください。
  • ML.TRANSCRIBE: Speech-to-Text API のデフォルト モデルを使用します。Document AI API を使用すると、Chirp 音声モデルによる音声文字変換にアクセスできます。

サポートされているタスク

サポートされているタスクは次のとおりです。

  • ML.GENERATE_TEXT: 音声文字変換と自然言語処理(NLP)タスクを実行できます。
  • ML.TRANSCRIBE: 音声文字変換を実行できます。

料金

料金は次のとおりです。

  • ML.GENERATE_TEXT: この関数で使用する Vertex AI モデルの料金については、Vertex AI の料金をご覧ください。サポートされているモデルの教師ありチューニングに対しては、ノード時間あたりの料金で課金されます。詳細については、Vertex AI カスタム トレーニングの料金をご覧ください。
  • ML.TRANSCRIBE: この関数で使用する Cloud AI サービスの料金については、Speech-to-Text API の料金をご覧ください。

教師ありチューニング

教師ありチューニングのサポートは次のとおりです。

  • ML.GENERATE_TEXT: 一部のモデルで教師ありチューニングがサポートされています。
  • ML.TRANSCRIBE: 教師ありチューニングはサポートされていません。

1 分あたりのクエリ数(QPM)の上限

QPM の上限は次のとおりです。

  • ML.GENERATE_TEXT: gemini-1.5-pro モデルの場合はデフォルトの us-central1 リージョンで 60 QPM、gemini-1.5-flash モデルの場合はデフォルトの us-central1 リージョンで 200 QPM。詳細については、Vertex AI の生成 AI の割り当てをご覧ください。
  • ML.TRANSCRIBE: プロジェクトごとに 900 QPM。詳細については、割り当てと上限をご覧ください。

割り当てを増やすには、割り当ての増加をリクエストするをご覧ください。

トークンの上限

トークンの上限は次のとおりです。

  • ML.GENERATE_TEXT: 700 個の入力トークンと 8, 196 個の出力トークン。この出力トークンの上限は、ML.GENERATE_TEXT の個々の音声クリップの上限が約 39 分であることを意味します。
  • ML.TRANSCRIBE: トークンの上限はありません。ただし、この機能には個々の音声クリップに 480 分という上限があります。

サポートされている言語

サポートされている言語は次のとおりです。

対象リージョン

ご利用対象のリージョンは次のとおりです。

  • ML.GENERATE_TEXT: Vertex AI 向けのすべての生成 AI のリージョンで利用できます。
  • ML.TRANSCRIBE: すべての音声認識ツールで、EUUSマルチリージョンで利用できます。