Vertex AI の最先端マルチモーダルモデルである Gemini 1.5 Pro をお試しになり、100 万トークンのコンテキストウィンドウで何を構築できるかご確認ください。Vertex AI の最先端マルチモーダルモデルである Gemini 1.5 Pro をお試しになり、100 万トークンのコンテキストウィンドウで何を構築できるかご確認ください。

入門ガイド

音声認識の実行

短い音声ファイルの文字変換

ローカルとリモートの音声ファイルに同期音声認識を実行します。
長い音声ファイルの文字変換

リモートの音声ファイルに対して非同期で音声認識を実行します。
ストリーミング入力の音声文字変換

ローカルの音声ファイルとその他の音声入力ストリームにストリーミング音声認識を実行します。

認識リクエストの構成

単語レベルの信頼度の有効化

Cloud Speech-to-Text で音声文字変換の各単語の信頼度レベル（正確さの値）が提示されるように指定します。
異なる話者の分離

Cloud Speech-to-Text で音声文字変換する音声データの話者ごとにラベルを付けます。
音声言語の自動検出

Cloud Speech-to-Text に送信する音声文字変換リクエストに複数の言語コードを指定します。
複数のチャンネルを含む音声の文字変換

複数のチャンネルを含む音声ファイルを音声文字変換します。
音声文字変換モデルの選択

音声文字変換用の機械学習モデルを選択します。
データロギングの有効化

Google Cloud プロジェクトでデータロギングを有効にすると、割引を受けることができます。
拡張モデルの使用

拡張音声認識モデルを使用します。
句読点の挿入

Speech-to-Text の変換結果に句読点を挿入します。
単語のタイムスタンプの取得

リモートファイルに音声認識を実行し、認識された単語に時間オフセット（タイムスタンプ）値を含めます。

Base64 エンコード

音声を Base64 でエンコードする方法について学びます。

入門ガイド

短い音声ファイルの文字変換

長い音声ファイルの文字変換

ストリーミング入力の音声文字変換

単語レベルの信頼度の有効化

異なる話者の分離

音声言語の自動検出

複数のチャンネルを含む音声の文字変換

音声文字変換モデルの選択

データロギングの有効化

拡張モデルの使用

句読点の挿入

単語のタイムスタンプの取得

Base64 エンコード