音声を理解する

Gemini は音声に関するプロンプトに応答できます。Gemini リクエストに音声を追加して、含まれる音声の内容を理解するタスクを実行できます。たとえば、Gemini は次のことができます。

音声コンテンツの説明、要約、質問への回答を行う。
音声の文字起こしを提供します。
音声の特定のセグメントに関する回答または文字起こしを提供します。

音声理解は、テキストとメディアファイルを組み合わせた Gemini のマルチモーダル入力の 1 つです。

Gemini を使用した音声理解の詳細と、API リクエストを送信する手順については、マルチモーダルプロンプトを送信するをご覧ください。

音声付きプロンプトの仕様

Gemini へのリクエストに音声ファイルを追加できます。1 つのプロンプトでサポートされる音声データの最大長は 15 分または最大 32,000 トークンです。Gemini では、1 つのプロンプトに含まれる音声ファイルの数に制限はありませんが、1 つのプロンプトに含まれるすべての音声ファイルの合計長は 15 分を超えてはなりません。

Gemini は、音声の要約、文字起こし、翻訳のために音声を理解できます。

音声は、次のいずれかの音声フォーマット MIME タイプである必要があります。

AAC: audio/aac
AIF: audio/aiff
FLAC: audio/flac
MP3: audio/mp3
OGG: audio/ogg
WAV: audio/wav

Gemini は音声に次のルールを適用します。

オーディオの 1 秒を 25 個のトークンとして表します。たとえば、1 分間の音声は 1,500 トークンとして表されます。
英語の音声に対するレスポンスのみを推論します。
鳥の鳴き声やサイレンなどの音声以外のコンポーネントを分析します。
音声ファイルを 16 Kbps のデータ解像度にサンプリングします。音声ソースに複数のチャンネルが含まれている場合、Gemini はそれらを 1 つのチャンネルに結合します。

REST API の Chat Completions エンドポイントを使用し、HTTP クライアントまたは OpenAI の Python 用公式 SDK を使用できます。音声は、base64 でエンコードされたファイルとしてプロンプトリクエストにインラインデータとして提供するか、プロンプトリクエストを行う前にストレージバケットに音声ファイルをアップロードできます。

音声の制限事項については、 Google Cloud ドキュメントをご覧ください。

OpenAI と、Gemini が Google Distributed Cloud（GDC）エアギャップで実装する Chat Completions エンドポイントの詳細については、https://platform.openai.com/docs/api-reference/chat をご覧ください。

プロンプトから音声を理解する

次の例は、OpenAI の Python または curl 用の公式 SDK を使用して、テキストと音声の入力からテキストを生成する Gemini Chat Completions API リクエストを示しています。音声はインラインデータとして送信することも、リクエストで音声 URL を指定することもできます。

インラインデータリクエストを送信する

Base64 エンコードされたファイルから、プロンプトリクエストにインラインデータとして音声を提供します。API リクエストには、Base64 エンコードされた音声の input_audio フィールドが含まれています。次のサンプルは、base64 でエンコードされた音声リクエストを送信する方法を示しています。

Python

import openai

client = openai.OpenAI()
model_response = client.chat.completions.create(
  model = "MODEL_ID",
  messages =  [
                {
                  "role": "user",
                  "content": "Show me the lyrics of this song."
                },
                {
                  "role": "user",
                  "content": [
                    {
                      "type": "input_audio",
                      "input_audio": {
                        "data": BASE64_DATA,
                        # Valid formats are aac, aiff, flac, mp3, ogg, or wav
                        "format": "mp3"
                      }
                    }
                  ]
                }
              ]
)

print(model_response)

次のように置き換えます。

MODEL_ID: レスポンスを生成するモデルのエンドポイント ID。
BASE64_DATA: 音声ファイルの Base64 エンコードデータ。Base64 エンコードされたデータには、データ URI スキーム（RFC 2397）の接頭辞を付ける必要があります。したがって、base64 でエンコードされたデータの data フィールドの形式は、たとえば "data": f"data:audio/mp3;base64,{base64_audio}" です。

curl

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d  '{
          "model_id": "MODEL_ID",
          "messages": [
            {
              "role": "user",
              "content": "Show me the lyrics of this song."
            },
            {
              "role": "user",
              "content": [
                {
                  "type": "input_audio",
                  "input_audio": {
                    "data": BASE64_DATA,
                    # Valid formats are aac, aiff, flac, mp3, ogg, or wav
                    "format": "mp3"
                  }
                }
              ]
            }
          ],
      }'

次のように置き換えます。

ENDPOINT: 組織で使用する API エンドポイント。
PROJECT: プロジェクト ID。
MODEL_ID: レスポンスを生成するモデルのエンドポイント ID。
BASE64_DATA: 音声ファイルの Base64 エンコードデータ。Base64 エンコードされたデータには、データ URI スキーム（RFC 2397）の接頭辞を付ける必要があります。したがって、base64 でエンコードされたデータの data フィールドの形式は、たとえば "data": f"data:audio/mp3;base64,{base64_audio}" です。

リクエストで音声 URL を送信する

プロンプトリクエストを行う前に、音声ファイルをストレージバケットにアップロードします。API リクエストには、ストレージバケット内の音声ファイルの audio_url フィールドが含まれています。次のサンプルは、音声 URL リクエストを送信する方法を示しています。

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d  '{
          "model_id": "MODEL_ID",
          "messages": [
            {
              "role": "user",
              "content": "Show me the lyrics of this song."
            },
            {
              "role": "user",
              "content": [
                {
                  "type": "audio_url",
                  "audio_url": {
                    "url": "AUDIO_URL",
                  }
                }
              ]
            }
          ],
      }'

次のように置き換えます。

ENDPOINT: 組織で使用する API エンドポイント。
PROJECT: プロジェクト ID。
MODEL_ID: レスポンスを生成するモデルのエンドポイント ID。
AUDIO_URL: ストレージバケット内の音声 URL のパス。音声 URL は、GDC ストレージバケットに保存されている音声ファイルを参照する必要があります。詳細については、データを保存するをご覧ください。

次のステップ

マルチモーダルプロンプトを送信する

音声を理解する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

音声付きプロンプトの仕様

プロンプトから音声を理解する

インライン データ リクエストを送信する

Python

curl

リクエストで音声 URL を送信する

次のステップ

音声を理解する

インラインデータリクエストを送信する