Transkripsi Ucapan mentranskripsikan audio yang diucapkan dalam segmen video atau video menjadi teks dan menampilkan blok teks untuk setiap bagian audio yang ditranskripsikan.
Model yang didukung
Video Intelligence hanya mendukung bahasa Inggris (AS). Untuk bahasa lain, gunakan Speech-to-Text API, yang mendukung semua bahasa yang tersedia. Untuk daftar bahasa yang tersedia, lihat Dukungan bahasa dalam dokumentasi Speech-to-Text.
Untuk mentranskripsikan ucapan dari video, panggil metode
annotate
dan tentukan
SPEECH_TRANSCRIPTION
di kolom features
.
Anda dapat menggunakan fitur berikut saat mentranskripsikan ucapan:
Kata alternatif: Gunakan opsi
maxAlternatives
untuk menentukan jumlah opsi maksimum untuk terjemahan teks yang dikenali yang akan disertakan dalam respons. Nilai ini dapat berupa bilangan bulat dari 1 sampai 30. Nilai defaultnya adalah 1. API menampilkan beberapa transkripsi dalam urutan menurun berdasarkan nilai keyakinan untuk transkripsi. Transkripsi alternatif tidak menyertakan entri tingkat kata.Pemfilteran kata-kata tidak sopan: Gunakan opsi
filterProfanity
untuk memfilter kata-kata tidak sopan yang diketahui dalam transkripsi. Kata yang cocok akan diganti dengan karakter utama dari kata yang diikuti dengan tanda bintang. Secara default, nilainya adalah false.Petunjuk transkripsi: Gunakan opsi
speechContexts
untuk memberikan frasa yang umum atau tidak biasa dalam audio Anda. Frasa tersebut kemudian digunakan untuk membantu layanan transkripsi untuk membuat transkripsi yang lebih akurat. Anda memberikan petunjuk transkripsi sebagai objek SpeechContext.Pemilihan trek audio: Gunakan opsi
audioTracks
untuk menentukan trek yang akan ditranskripsikan dari video multi-lagu. Pengguna dapat menentukan hingga dua jalur. Defaultnya adalah 0. Setelah kode bahasa disetel ke en-US, permintaan akan diarahkan ke mode yang ditingkatkan, yang dilatih pada audio en-US; permintaan tidak benar-benar mengenal en-US atau bahasa lainnya. Jika kita memasukkan audio bahasa Spanyol ke model yang ditingkatkan kualitasnya, transkripsi akan berjalan, tetapi mungkin akan ada output dengan skor keyakinan rendah, atau tidak ada output sama sekali, yang diharapkan dari model yang baik.Tanda baca otomatis: Gunakan opsi
enableAutomaticPunctuation
untuk menyertakan tanda baca dalam teks transkripsi. Secara default, nilainya adalah false.Beberapa pembicara: Gunakan opsi
enableSpeakerDiarization
untuk mengidentifikasi pembicara yang berbeda dalam video. Dalam respons, setiap kata yang dikenali akan menyertakan kolomspeakerTag
yang mengidentifikasi pembicara mana yang diatribusikan ke kata yang dikenali.
Untuk hasil terbaik, sediakan audio yang direkam pada frekuensi sampling 16.000 Hz atau lebih tinggi.
Lihat Visualizer Video Intelligence API untuk melihat cara kerja fitur ini.
Untuk contoh permintaan transkripsi ucapan, lihat Transkripsi Ucapan.