Halaman ini menjelaskan cara menggunakan model machine learning tertentu untuk permintaan transkripsi audio ke Speech-to-Text.
Model transkripsi
Speech-to-Text mendeteksi kata-kata dalam klip audio dengan membandingkan input dengan salah satu dari banyak model machine learning. Setiap model telah dilatih dengan menganalisis jutaan contoh—dalam hal ini, rekaman audio orang berbicara dalam jumlah yang amat sangat banyak.
Speech-to-Text memiliki model khusus yang dilatih dari audio untuk sumber tertentu. Model semacam ini memberikan hasil yang lebih baik saat diterapkan pada jenis data audio yang mirip dengan data yang digunakan untuk melatihnya.
Misalnya, Speech-to-Text memiliki model transkripsi terlatih untuk mengenali ucapan yang direkam melalui telepon. Saat menggunakan model telephony
untuk mentranskripsi audio telepon, Speech-to-Text akan menghasilkan hasil transkripsi yang lebih akurat dibandingkan jika, misalnya, mentranskripsi audio telepon dengan model short
ataulong
.
Tabel berikut menunjukkan model transkripsi yang tersedia untuk digunakan dengan Speech-to-Text.
Nama model | Deskripsi |
---|---|
long |
Gunakan model ini untuk semua jenis konten berdurasi panjang, seperti media atau ucapan dan percakapan spontan. Pertimbangkan untuk menggunakan model ini, bukan model `video` atau `default`, terutama jika model tersebut tidak tersedia dalam bahasa target Anda. |
short |
Gunakan model ini untuk ucapan singkat yang berdurasi beberapa detik. Model ini berguna saat merekam perintah atau kasus penggunaan ucapan terarah satu pengambilan lainnya. Pertimbangkan untuk menggunakan model ini, bukan model command and search. |
telephony |
Gunakan model ini untuk audio yang berasal dari panggilan telepon audio, biasanya direkam pada frekuensi sampling 8 kHz. Ideal untuk aplikasi layanan pelanggan, konferensi jarak jauh, dan kios otomatis. |
medical_dictation |
Gunakan model ini untuk mentranskripsikan catatan yang didiktekan oleh tenaga medis profesional, misalnya, dokter yang mendiktekan catatan tentang hasil tes darah pasien. |
medical_conversation |
Gunakan model ini untuk percakapan antara penyedia layanan medis, misalnya dokter atau perawat, dan pasien. Gunakan model `medical_conversation` saat penyedia dan pasien sedang berbicara. Kata-kata yang diucapkan oleh setiap pembicara akan otomatis dideteksi dan diberi label secara otomatis. |
chirp_2 |
Gunakan Model Ucapan Besar Universal (USM) generasi berikutnya yang didukung oleh teknologi model bahasa besar kami untuk streaming dan batch, serta transkripsi dan terjemahan dalam berbagai konten linguistik dan kemampuan multibahasa. |
chirp_telephony |
Model Ucapan Besar Universal(USM) yang disesuaikan untuk audio yang berasal dari panggilan telepon (biasanya direkam pada frekuensi sampling 8 kHz). |
chirp |
Gunakan Model Ucapan Besar Universal(USM) kami, untuk transkrip non-streaming canggih dalam berbagai konten linguistik dan kemampuan multilingual. |
Memilih model untuk transkripsi audio
Model ini ditentukan oleh Pengenal yang digunakan untuk permintaan pengenalan. Panggil speech/projects.locations.recognizers/create
untuk membuat pengenal, dan gunakan kolom model
untuk menentukan model. Model yang valid untuk setiap bahasa dapat ditemukan di tabel Bahasa yang Didukung.