Memahami audio

Gemini dapat merespons perintah tentang audio. Anda dapat menambahkan audio ke permintaan Gemini untuk melakukan tugas yang melibatkan pemahaman konten audio yang disertakan. Misalnya, Gemini dapat melakukan hal berikut:

Mendeskripsikan, meringkas, atau menjawab pertanyaan tentang konten audio.
Berikan transkripsi audio.
Memberikan jawaban atau transkripsi tentang segmen audio tertentu.

Pemahaman audio adalah salah satu input multimodal Gemini yang menggabungkan teks dengan file media.

Untuk mengetahui informasi selengkapnya tentang pemahaman audio dengan Gemini dan petunjuk langkah demi langkah untuk mengirim permintaan API, lihat Mengirim perintah multimodal.

Spesifikasi untuk perintah dengan audio

Anda dapat menambahkan file audio ke permintaan Anda kepada Gemini. Durasi maksimum data audio yang didukung dalam satu perintah adalah 15 menit atau hingga 32.000 token. Gemini tidak membatasi jumlah file audio dalam satu perintah, tetapi total durasi gabungan semua file audio dalam satu perintah tidak boleh melebihi 15 menit.

Gemini dapat memahami ucapan untuk meringkas, mentranskripsikan, dan menerjemahkan audio.

Audio harus dalam salah satu jenis MIME format audio berikut:

AAC: audio/aac
AIF: audio/aiff
FLAC: audio/flac
MP3: audio/mp3
OGG: audio/ogg
WAV: audio/wav

Gemini menerapkan aturan berikut pada audio:

Merepresentasikan setiap detik audio sebagai 25 token. Misalnya, satu menit audio direpresentasikan sebagai 1.500 token.
Hanya menyimpulkan respons terhadap ucapan dalam bahasa Inggris.
Menganalisis komponen non-ucapan, seperti kicauan burung atau sirene.
Contoh file audio ke resolusi data 16 Kbps. Jika sumber audio berisi beberapa saluran, Gemini akan menggabungkannya menjadi satu saluran.

Anda dapat menggunakan endpoint Chat Completions di REST API dan menggunakan klien HTTP atau SDK resmi OpenAI untuk Python. Anda dapat memberikan audio sebagai data inline ke permintaan perintah sebagai file berenkode base64 atau mengupload file audio ke bucket penyimpanan sebelum membuat permintaan perintah.

Pelajari lebih lanjut batasan untuk audio dalam dokumentasi Google Cloud .

Untuk mempelajari lebih lanjut OpenAI dan endpoint Chat Completions yang diterapkan Gemini dalam lingkungan air-gapped Google Distributed Cloud (GDC), lihat https://platform.openai.com/docs/api-reference/chat.

Memahami audio dari perintah

Contoh berikut menunjukkan permintaan Gemini Chat Completions API untuk membuat teks dari input teks dan audio menggunakan SDK resmi OpenAI untuk Python atau curl. Anda dapat mengirim audio sebagai data inline atau memberikan URL audio dalam permintaan.

Mengirim permintaan data inline

Menyediakan audio sebagai data inline ke permintaan perintah dari file berenkode base64. Permintaan API berisi kolom input_audio untuk audio berenkode base64. Contoh berikut menunjukkan cara mengirim permintaan audio berenkode base64:

Python

import openai

client = openai.OpenAI()
model_response = client.chat.completions.create(
  model = "MODEL_ID",
  messages =  [
                {
                  "role": "user",
                  "content": "Show me the lyrics of this song."
                },
                {
                  "role": "user",
                  "content": [
                    {
                      "type": "input_audio",
                      "input_audio": {
                        "data": BASE64_DATA,
                        # Valid formats are aac, aiff, flac, mp3, ogg, or wav
                        "format": "mp3"
                      }
                    }
                  ]
                }
              ]
)

print(model_response)

Ganti kode berikut:

MODEL_ID: ID endpoint model yang ingin Anda gunakan untuk membuat respons.
BASE64_DATA: data file audio yang dienkode base64. Data berenkode Base64 harus diawali dengan skema URI data, RFC 2397. Oleh karena itu, format untuk kolom data untuk data yang dienkode base64 adalah, misalnya, "data": f"data:audio/mp3;base64,{base64_audio}".

curl

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d  '{
          "model_id": "MODEL_ID",
          "messages": [
            {
              "role": "user",
              "content": "Show me the lyrics of this song."
            },
            {
              "role": "user",
              "content": [
                {
                  "type": "input_audio",
                  "input_audio": {
                    "data": BASE64_DATA,
                    # Valid formats are aac, aiff, flac, mp3, ogg, or wav
                    "format": "mp3"
                  }
                }
              ]
            }
          ],
      }'

Ganti kode berikut:

ENDPOINT: endpoint API yang Anda gunakan untuk organisasi Anda.
PROJECT: project ID Anda.
MODEL_ID: ID endpoint model yang ingin Anda gunakan untuk membuat respons.
BASE64_DATA: data file audio yang dienkode base64. Data berenkode Base64 harus diawali dengan skema URI data, RFC 2397. Oleh karena itu, format untuk kolom data untuk data yang dienkode base64 adalah, misalnya, "data": f"data:audio/mp3;base64,{base64_audio}".

Mengirim URL audio dalam permintaan

Upload file audio ke bucket penyimpanan sebelum membuat permintaan perintah. Permintaan API berisi kolom audio_url untuk file audio di bucket penyimpanan. Contoh berikut menunjukkan cara mengirim permintaan URL audio:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d  '{
          "model_id": "MODEL_ID",
          "messages": [
            {
              "role": "user",
              "content": "Show me the lyrics of this song."
            },
            {
              "role": "user",
              "content": [
                {
                  "type": "audio_url",
                  "audio_url": {
                    "url": "AUDIO_URL",
                  }
                }
              ]
            }
          ],
      }'

Ganti kode berikut:

ENDPOINT: endpoint API yang Anda gunakan untuk organisasi Anda.
PROJECT: project ID Anda.
MODEL_ID: ID endpoint model yang ingin Anda gunakan untuk membuat respons.
AUDIO_URL: jalur ke URL audio di bucket penyimpanan. URL audio harus merujuk ke file audio yang disimpan di bucket penyimpanan GDC. Untuk mengetahui informasi selengkapnya, lihat Menyimpan data.

Langkah berikutnya

Mengirim perintah multimodal

Memahami audio Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Spesifikasi untuk perintah dengan audio

Memahami audio dari perintah

Mengirim permintaan data inline

Python

curl

Mengirim URL audio dalam permintaan

Langkah berikutnya

Memahami audio