Halaman ini memberikan prasyarat dan petunjuk mendetail untuk meningkatkan kualitas Gemini pada data audio menggunakan pembelajaran dengan pengawasan.
Kasus penggunaan
Menyesuaikan model audio akan meningkatkan performanya dengan menyesuaikannya dengan kebutuhan tertentu. Hal ini dapat mencakup peningkatan pengenalan ucapan untuk berbagai aksen, penyesuaian klasifikasi genre musik, pengoptimalan deteksi peristiwa suara, penyesuaian pembuatan audio, penyesuaian dengan lingkungan yang bising, peningkatan kualitas audio, dan personalisasi pengalaman audio. Berikut beberapa kasus penggunaan penyesuaian audio yang umum:
Asisten suara yang ditingkatkan:
- Pemesanan makanan dengan suara: Mengembangkan sistem yang diaktifkan suara untuk pemesanan dan pengiriman makanan yang lancar.
Analisis konten audio:
- Transkripsi otomatis: Buat transkrip yang sangat akurat, bahkan di lingkungan yang bising.
- Ringkasan audio: Meringkas poin-poin penting dari podcast atau buku audio.
- Klasifikasi musik: Mengelompokkan musik berdasarkan genre, mood, atau karakteristik lainnya.
Aksesibilitas dan teknologi pendukung:
- Teks real-time: Memberikan teks langsung untuk acara atau panggilan video.
- Aplikasi yang dikontrol suara: Mengembangkan aplikasi yang sepenuhnya dikontrol oleh suara.
- Pembelajaran bahasa: Buat alat yang memberikan masukan yang dipersonalisasi tentang pengucapan.
Batasan
- Durasi audio maksimum per contoh: 10 menit.
- File audio maksimum per contoh: 1.
- Ukuran file audio maksimum: 20 MB.
Untuk mempelajari persyaratan sampel audio lebih lanjut, lihat halaman Pemahaman audio (khusus ucapan).
Format set data
Berikut adalah contoh set data audio.
Untuk melihat contoh format generik, lihat Contoh set data untuk Gemini 1.5 pro dan Gemini 1.5 flash.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
Langkah selanjutnya
- Untuk mempelajari model pemahaman audio Gemini lebih lanjut, lihat Pemahaman audio (khusus ucapan)
- Untuk mulai menyesuaikan, lihat Menyesuaikan model Gemini menggunakan penyesuaian yang diawasi
- Untuk mempelajari cara penyesuaian tersupervisi dapat digunakan dalam solusi yang membuat pusat informasi AI generatif, lihat Solusi Praktis: Pusat informasi AI generatif.