Halaman ini diterjemahkan oleh Cloud Translation API.

Penyesuaian Audio

Halaman ini memberikan prasyarat dan petunjuk mendetail untuk menyesuaikan Gemini pada data audio menggunakan pembelajaran terawasi.

Kasus penggunaan

Menyesuaikan model audio akan meningkatkan performanya dengan menyesuaikannya menurut kebutuhan tertentu. Hal ini dapat mencakup peningkatan pengenalan ucapan untuk aksen yang berbeda-beda, penyesuaian klasifikasi genre musik, pengoptimalan deteksi peristiwa suara, penyesuaian pembuatan audio, penyesuaian dengan lingkungan yang bising, peningkatan kualitas audio, dan personalisasi pengalaman audio. Berikut beberapa kasus penggunaan umum penyesuaian audio:

Asisten suara yang ditingkatkan kualitasnya:
- Pemesanan makanan melalui suara: Mengembangkan sistem yang diaktifkan dengan suara untuk pemesanan dan pengiriman makanan yang lancar.
Analisis konten audio:
- Transkripsi otomatis: Buat transkrip yang sangat akurat, bahkan di lingkungan yang bising.
- Ringkasan audio: Merangkum poin-poin penting dari podcast atau buku audio.
- Klasifikasi musik: Mengategorikan musik berdasarkan genre, mood, atau karakteristik lainnya.
Aksesibilitas dan teknologi pendukung:
- Teks real-time: Menyediakan teks langsung untuk acara atau panggilan video.
- Aplikasi yang dikontrol suara: Kembangkan aplikasi yang sepenuhnya dikontrol oleh suara.
- Pembelajaran bahasa: Membuat alat yang memberikan masukan yang dipersonalisasi tentang pengucapan.

Batasan

Model Gemini 2.5

Spesifikasi	Nilai
Panjang audio maksimum per contoh	60 menit
File audio maksimum per contoh	1
Ukuran file audio maksimum	100MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Spesifikasi	Nilai
Panjang audio maksimum per contoh	60 menit
File audio maksimum per contoh	1
Ukuran file audio maksimum	100MB

Untuk mempelajari lebih lanjut persyaratan sampel audio, lihat halaman Pemahaman audio (khusus ucapan).

Format set data

fileUri untuk set data Anda dapat berupa URI untuk file di bucket Cloud Storage, atau dapat berupa URL HTTP atau HTTPS yang tersedia secara publik.

Untuk melihat contoh format generik, lihat Contoh set data untuk Gemini.

Berikut adalah contoh set data audio.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

Langkah berikutnya

Untuk mempelajari lebih lanjut model pemahaman audio Gemini, lihat Pemahaman audio (khusus ucapan).
Untuk mulai melakukan penyesuaian, lihat Menyesuaikan model Gemini menggunakan fine-tuning yang diawasi.
Untuk mempelajari cara penggunaan penyesuaian halus tersupervisi dalam solusi yang membangun pusat informasi AI generatif, lihat Solusi Praktis: Pusat informasi AI generatif.