Transkripsi Ucapan mentranskripsikan audio lisan dalam video atau segmen video menjadi teks dan menampilkan blok teks untuk setiap bagian audio yang ditranskripsikan.
Model yang didukung
Video Intelligence hanya mendukung bahasa Inggris (AS). Untuk bahasa lain, gunakan Speech-to-Text API, yang mendukung semua bahasa yang tersedia. Untuk mengetahui daftar bahasa yang tersedia, lihat Dukungan bahasa dalam dokumentasi Speech-to-Text.
Untuk mentranskripsikan ucapan dari video, panggil metode
annotate
dan tentukan
SPEECH_TRANSCRIPTION
di kolom features
.
Anda dapat menggunakan fitur berikut saat mentranskripsikan ucapan:
Kata alternatif: Gunakan opsi
maxAlternatives
untuk menentukan jumlah maksimum opsi terjemahan teks yang dikenali untuk disertakan dalam respons. Nilai ini dapat berupa bilangan bulat dari 1 hingga 30. Nilai defaultnya adalah 1. API menampilkan beberapa transkripsi dalam urutan menurun berdasarkan nilai keyakinan untuk transkripsi. Transkripsi alternatif tidak menyertakan entri tingkat kata.Filter kata-kata tidak sopan: Gunakan opsi
filterProfanity
untuk memfilter kata-kata tidak sopan yang diketahui dalam transkripsi. Kata yang cocok akan diganti dengan karakter awal kata diikuti dengan tanda bintang. Secara default, nilainya adalah false.Petunjuk transkripsi: Gunakan opsi
speechContexts
untuk memberikan frasa umum atau tidak biasa dalam audio Anda. Frasa tersebut kemudian digunakan untuk membantu layanan transkripsi membuat transkripsi yang lebih akurat. Anda memberikan petunjuk transkripsi sebagai objek SpeechContext.Pemilihan trek audio: Gunakan opsi
audioTracks
untuk menentukan trek yang akan ditranskripsikan dari video multi-trek. Pengguna dapat menentukan hingga dua jalur. Defaultnya adalah 0. Setelah kode bahasa ditetapkan ke en-US, permintaan akan dirutekan ke mode yang ditingkatkan, yang dilatih dengan audio en-US; mode ini tidak benar-benar mengetahui en-US atau bahasa lain. Jika kita memasukkan audio bahasa Spanyol ke dalam model yang ditingkatkan, transkripsi akan berjalan seperti biasa, tetapi mungkin ada output dengan skor keyakinan yang rendah, atau tidak ada output sama sekali – yang merupakan hal yang diharapkan dari model yang baik.Tanda baca otomatis: Gunakan opsi
enableAutomaticPunctuation
untuk menyertakan tanda baca dalam teks yang ditranskripsikan. Secara default, nilainya adalah false.Beberapa pembicara: Gunakan opsi
enableSpeakerDiarization
untuk mengidentifikasi beberapa pembicara dalam video. Dalam respons, setiap kata yang dikenali menyertakan kolomspeakerTag
yang mengidentifikasi pembicara yang diatribusikan kata yang dikenali.
Untuk hasil terbaik, sediakan audio yang direkam pada frekuensi sampling 16.000 Hz atau lebih.
Lihat Visualisator Video Intelligence API untuk melihat cara kerja fitur ini.
Untuk contoh permintaan transkripsi ucapan, lihat Transkripsi Ucapan.