Pilih model transkripsi

Halaman ini menjelaskan cara menggunakan model machine learning tertentu untuk permintaan transkripsi audio ke Speech-to-Text.

Model transkripsi

Speech-to-Text mendeteksi kata-kata dalam klip audio dengan membandingkan input dengan salah satu dari banyak model machine learning. Setiap model telah dilatih dengan menganalisis jutaan contoh—dalam hal ini, rekaman audio orang berbicara dalam jumlah yang amat sangat banyak.

Speech-to-Text memiliki model khusus yang dilatih dari audio untuk sumber tertentu. Model semacam ini memberikan hasil yang lebih baik saat diterapkan pada jenis data audio yang mirip dengan data yang digunakan untuk melatihnya.

Misalnya, Speech-to-Text memiliki model transkripsi terlatih untuk mengenali ucapan yang direkam melalui telepon. Saat menggunakan model telephony untuk mentranskripsi audio telepon, Speech-to-Text akan menghasilkan hasil transkripsi yang lebih akurat dibandingkan jika, misalnya, mentranskripsi audio telepon dengan model short ataulong.

Tabel berikut menunjukkan model transkripsi yang tersedia untuk digunakan dengan Speech-to-Text.

Nama model Deskripsi
long Gunakan model ini untuk semua jenis konten berdurasi panjang, seperti media atau ucapan dan percakapan spontan. Pertimbangkan untuk menggunakan model ini, bukan model `video` atau `default`, terutama jika model tersebut tidak tersedia dalam bahasa target Anda.
short Gunakan model ini untuk ucapan singkat yang berdurasi beberapa detik. Model ini berguna saat merekam perintah atau kasus penggunaan ucapan terarah satu pengambilan lainnya. Pertimbangkan untuk menggunakan model ini, bukan model command and search.
telephony Gunakan model ini untuk audio yang berasal dari panggilan telepon audio, biasanya direkam pada frekuensi sampling 8 kHz. Ideal untuk aplikasi layanan pelanggan, konferensi jarak jauh, dan kios otomatis.
medical_dictation Gunakan model ini untuk mentranskripsikan catatan yang didiktekan oleh tenaga medis profesional, misalnya, dokter yang mendiktekan catatan tentang hasil tes darah pasien.
medical_conversation Gunakan model ini untuk percakapan antara penyedia layanan medis, misalnya dokter atau perawat, dan pasien. Gunakan model `medical_conversation` saat penyedia dan pasien sedang berbicara. Kata-kata yang diucapkan oleh setiap pembicara akan otomatis dideteksi dan diberi label secara otomatis.
chirp_2 Gunakan Model Ucapan Besar Universal (USM) generasi berikutnya yang didukung oleh teknologi model bahasa besar kami untuk streaming dan batch, serta transkripsi dan terjemahan dalam berbagai konten linguistik dan kemampuan multibahasa.
chirp_telephony Model Ucapan Besar Universal(USM) yang disesuaikan untuk audio yang berasal dari panggilan telepon (biasanya direkam pada frekuensi sampling 8 kHz).
chirp Gunakan Model Ucapan Besar Universal(USM) kami, untuk transkrip non-streaming canggih dalam berbagai konten linguistik dan kemampuan multilingual.

Memilih model untuk transkripsi audio

Model ini ditentukan oleh Pengenal yang digunakan untuk permintaan pengenalan. Panggil speech/projects.locations.recognizers/create untuk membuat pengenal, dan gunakan kolom model untuk menentukan model. Model yang valid untuk setiap bahasa dapat ditemukan di tabel Bahasa yang Didukung.