Halaman ini menunjukkan cara mentranskripsikan file audio singkat menjadi teks menggunakan pengenalan ucapan sinkron.
Pengenalan ucapan sinkron menampilkan teks yang dikenali untuk audio berdurasi pendek (kurang dari 60 detik). Untuk memproses permintaan pengenalan ucapan untuk audio berdurasi lebih dari 60 detik, gunakan Pengenalan Ucapan Asinkron.
Konten audio dapat dikirim langsung ke Speech-to-Text dari file lokal, atau Speech-to-Text dapat memproses konten audio yang disimpan di dalam bucket Google Cloud Storage. Buka halaman kuota & batas untuk mengetahui batas permintaan pengenalan ucapan sinkron.
Melakukan pengenalan ucapan sinkron pada file lokal
Berikut adalah contoh cara melakukan pengenalan ucapan sinkron pada file audio lokal:
REST
Lihat endpoint speech:recognize
API untuk detail
selengkapnya. Lihat dokumentasi referensi RecognitionConfig untuk mengetahui informasi selengkapnya tentang cara mengonfigurasi isi permintaan.
Konten audio yang disediakan dalam isi permintaan harus berenkode base64.
Untuk informasi selengkapnya tentang cara mengenkode audio dengan base64, lihat Mengenkode Konten Audio Base64. Untuk mengetahui informasi
selengkapnya tentang kolom content
, lihat RecognitionAudio.
Sebelum menggunakan data permintaan apa pun, lakukan penggantian sebagai berikut:
- LANGUAGE_CODE: kode BCP-47 dari bahasa yang diucapkan dalam klip audio Anda.
- ENCODING: encoding audio yang ingin Anda transkripsikan.
- SAMPLE_RATE_HERTZ: frekuensi sampel dalam hertz dari audio yang ingin ditranskripsikan.
- ENABLE_WORD_TIME_OFFSETS: aktifkan kolom ini jika Anda ingin selisih waktu mulai dan berakhir kata (stempel waktu) ditampilkan.
- INPUT_AUDIO: string berenkode base64 dari data audio yang ingin Anda transkripsikan.
- PROJECT_ID: ID alfanumerik untuk project Google Cloud Anda.
Metode HTTP dan URL:
POST https://speech.googleapis.com/v1/speech:recognize
Meminta isi JSON:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "content": "INPUT_AUDIO" } }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan menerima respons JSON yang mirip dengan yang berikut ini:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Lihat perintah
recognize
untuk mengetahui detail selengkapnya.
Untuk melakukan pengenalan ucapan di file lokal, gunakan Google Cloud CLI, melalui jalur file lokal dari file tersebut untuk menjalankan pengenalan ucapan.
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
Jika permintaan berhasil, server akan menampilkan respons dalam format JSON:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Go Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Java Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Node.js Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk .NET.
PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk PHP.
Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk Ruby.
Melakukan pengenalan ucapan sinkron pada file jarak jauh
Untuk memudahkan Anda, Speech-to-Text API dapat melakukan pengenalan ucapan sinkron secara langsung pada file audio yang terletak di Google Cloud Storage, tanpa perlu mengirimkan isi file audio ke dalam isi permintaan Anda.
Berikut adalah contoh cara melakukan pengenalan ucapan sinkron pada file yang terletak di Cloud Storage:
REST
Lihat endpoint speech:recognize
API untuk detail
selengkapnya. Lihat dokumentasi referensi RecognitionConfig untuk mengetahui informasi selengkapnya tentang cara mengonfigurasi isi permintaan.
Konten audio yang disediakan dalam isi permintaan harus berenkode base64.
Untuk informasi selengkapnya tentang cara mengenkode audio dengan base64, lihat Mengenkode Konten Audio Base64. Untuk mengetahui informasi
selengkapnya tentang kolom content
, lihat RecognitionAudio.
Sebelum menggunakan data permintaan apa pun, lakukan penggantian sebagai berikut:
- LANGUAGE_CODE: kode BCP-47 dari bahasa yang diucapkan dalam klip audio Anda.
- ENCODING: encoding audio yang ingin Anda transkripsikan.
- SAMPLE_RATE_HERTZ: frekuensi sampel dalam hertz dari audio yang ingin ditranskripsikan.
- ENABLE_WORD_TIME_OFFSETS: aktifkan kolom ini jika Anda ingin selisih waktu mulai dan berakhir kata (stempel waktu) ditampilkan.
- STORAGE_BUCKET: bucket Cloud Storage.
- INPUT_AUDIO: file data audio yang ingin Anda transkripsikan.
- PROJECT_ID: ID alfanumerik untuk project Google Cloud Anda.
Metode HTTP dan URL:
POST https://speech.googleapis.com/v1/speech:recognize
Meminta isi JSON:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "uri": "gs://STORAGE_BUCKET/INPUT_AUDIO" } }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan menerima respons JSON yang mirip dengan yang berikut ini:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Lihat perintah
recognize
untuk mengetahui detail selengkapnya.
Untuk melakukan pengenalan ucapan di file lokal, gunakan Google Cloud CLI, melalui jalur file lokal dari file tersebut untuk menjalankan pengenalan ucapan.
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
Jika permintaan berhasil, server akan menampilkan respons dalam format JSON:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Go Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Java Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Node.js Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk .NET.
PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk PHP.
Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk Ruby.