Halaman ini menjelaskan cara menggunakan model machine learning tertentu untuk permintaan transkripsi audio ke Speech-to-Text.
Model transkripsi
Speech-to-Text mendeteksi kata-kata dalam klip audio dengan membandingkan input dengan salah satu dari banyak model machine learning. Setiap model telah dilatih dengan menganalisis jutaan contoh—dalam hal ini, rekaman audio orang berbicara dalam jumlah yang amat sangat banyak.
Speech-to-Text memiliki model khusus yang dilatih dari audio untuk sumber tertentu. Model semacam ini memberikan hasil yang lebih baik saat diterapkan pada jenis data audio yang mirip dengan data yang digunakan untuk melatihnya.
Tabel berikut menunjukkan model transkripsi yang tersedia untuk digunakan dengan Speech-to-Text V2 API.
Nama model | Deskripsi |
---|---|
chirp_3 |
Gunakan model generatif khusus Pengenalan Ucapan Otomatis (ASR) multibahasa generasi terbaru dari Google yang dirancang untuk memenuhi kebutuhan pengguna Anda berdasarkan masukan dan pengalaman. Chirp 3 memberikan akurasi dan kecepatan yang lebih baik dibandingkan model Chirp sebelumnya serta menyediakan diarisasi dan deteksi bahasa otomatis. |
chirp_2 |
Gunakan Model Ucapan Besar (USM) Universal generasi berikutnya yang didukung oleh teknologi model bahasa besar (LLM) kami untuk streaming dan batch, serta transkripsi dan terjemahan dalam konten linguistik yang beragam dan kemampuan multibahasa. |
telephony |
Gunakan model ini untuk audio yang berasal dari panggilan telepon audio, yang biasanya direkam pada frekuensi sampling 8 kHz. Ideal untuk layanan pelanggan, telekonferensi, dan aplikasi kios otomatis. |
Model berikut didasarkan pada arsitektur sebelumnya; model ini tidak dipertahankan secara aktif dan terutama disimpan untuk kompatibilitas mundur dan lama.
chirp |
Gunakan Model Ucapan Besar Universal (USM) kami untuk transkripsi non-streaming canggih dalam konten linguistik yang beragam dan kemampuan multibahasa. |
chirp_telephony |
Model Ucapan Besar (USM) universal yang disesuaikan untuk audio yang berasal dari panggilan telepon (biasanya direkam pada frekuensi sampling 8 kHz). |
long |
Gunakan model ini untuk semua jenis konten berdurasi panjang, seperti media atau ucapan dan percakapan spontan. Pertimbangkan untuk menggunakan model ini sebagai pengganti model video atau default , terutama jika model tersebut tidak tersedia dalam bahasa target Anda. |
short |
Gunakan model ini untuk ucapan singkat yang berdurasi beberapa detik. Model ini berguna saat mencoba merekam perintah atau kasus penggunaan ucapan terarah satu pengambilan lainnya. Pertimbangkan untuk menggunakan model ini alih-alih model command and search. |
telephony_short |
Versi khusus model telephony untuk ucapan singkat atau bahkan satu kata untuk audio yang berasal dari panggilan telepon, biasanya direkam pada frekuensi sampling 8 kHz. Berguna untuk ucapan yang hanya berdurasi beberapa detik dalam layanan pelanggan, telekonferensi, dan aplikasi kios otomatis. |
medical_conversation |
Gunakan model ini untuk percakapan antara penyedia perawatan medis, misalnya dokter atau perawat, dan pasien. Gunakan model medical_conversation saat penyedia dan pasien sedang berbicara. Kata-kata yang diucapkan oleh setiap pembicara akan otomatis dideteksi dan diberi label. |
medical_dictation |
Gunakan model ini untuk mentranskripsikan catatan yang didiktekan oleh tenaga medis, misalnya, dokter yang mendiktekan catatan tentang hasil tes darah pasien. |
Memilih model untuk transkripsi audio
Model ini ditentukan oleh Pengenal yang digunakan untuk permintaan pengenalan. Panggil speech/projects.locations.recognizers/create
untuk membuat pengenal, dan gunakan kolom model
untuk menentukan model. Model yang valid untuk setiap bahasa dapat ditemukan di tabel Bahasa yang Didukung.