Memilih model transkripsi

Halaman ini menjelaskan cara menggunakan model machine learning tertentu untuk permintaan transkripsi audio ke Speech-to-Text.

Model transkripsi

Speech-to-Text mendeteksi kata-kata dalam klip audio dengan membandingkan input dengan salah satu dari banyak model machine learning. Setiap model telah dilatih dengan menganalisis jutaan contoh—dalam hal ini, rekaman audio orang berbicara dalam jumlah yang amat sangat banyak.

Speech-to-Text memiliki model khusus yang dilatih dari audio yang berasal dari sumber tertentu. Model semacam ini memberikan hasil yang lebih baik saat diterapkan pada jenis data audio yang mirip dengan data yang digunakan untuk melatihnya.

Misalnya, Speech-to-Text memiliki model transkripsi terlatih untuk mengenali ucapan yang direkam melalui telepon. Saat menggunakan model telephony untuk mentranskripsi audio telepon, Speech-to-Text akan menghasilkan hasil transkripsi yang lebih akurat dibandingkan jika, misalnya, mentranskripsi audio telepon dengan model latest_long ataumedical_dictation.

Tabel berikut menunjukkan model transkripsi yang tersedia untuk digunakan dengan Speech-to-Text.

Nama model Deskripsi
long Gunakan model ini untuk semua jenis konten berdurasi panjang, seperti media atau ucapan dan percakapan spontan. Pertimbangkan untuk menggunakan model ini sebagai ganti model `video` atau `default`, terutama jika tidak tersedia dalam bahasa target Anda.
short Gunakan model ini untuk ucapan singkat yang berdurasi beberapa detik. Hal ini berguna untuk mencoba merekam perintah atau kasus penggunaan ucapan singkat lainnya yang diarahkan. Pertimbangkan untuk menggunakan model ini alih-alih model perintah dan penelusuran.
telephony Gunakan model ini untuk audio yang berasal dari panggilan telepon audio, biasanya direkam pada frekuensi sampling 8 kHz. Cocok untuk layanan pelanggan, telekonferensi, dan aplikasi kios otomatis.
medical_dictation Gunakan model ini untuk mentranskripsikan catatan yang didikte oleh tenaga medis profesional, misalnya, dokter yang mendikte catatan tentang hasil tes darah pasien.
medical_conversation Gunakan model ini untuk percakapan antara penyedia layanan medis, misalnya, dokter atau perawat, dan pasien. Gunakan model `medical_conversation` saat penyedia dan pasien berbicara. Kata-kata yang diucapkan oleh setiap pembicara akan otomatis terdeteksi dan diberi label secara otomatis.
chirp Gunakan Universal Large Speech Model(USM) kami, untuk transkripsi non-streaming canggih dalam beragam konten linguistik dan kemampuan multibahasa.
chirp_telephony Universal Large Speech Model(USM) yang disesuaikan untuk audio yang berasal dari panggilan telepon (biasanya direkam pada frekuensi sampling 8 kHz).
chirp_2 Gunakan Universal Large Speech Model (USM) generasi berikutnya yang didukung oleh Gemini untuk mendapatkan transkripsi dan terjemahan non-streaming dalam beragam konten linguistik dan kemampuan multibahasa.

Memilih model untuk transkripsi audio

Model ini ditentukan oleh Pengenal yang digunakan untuk permintaan pengenalan. Panggil speech/projects.locations.recognizers/create untuk membuat pengenal, dan gunakan kolom model untuk menentukan model. Model yang valid untuk setiap bahasa dapat ditemukan di tabel Bahasa yang Didukung.