- Permintaan HTTP
- Parameter lokasi
- Isi permintaan
- Isi respons
- Cakupan otorisasi
- Izin IAM
- SpeechRecognitionResult
- SpeechRecognitionAlternative
- WordInfo
- RecognitionResponseMetadata
Melakukan pengenalan Ucapan sinkron: menerima hasil setelah semua audio dikirim dan diproses.
Permintaan HTTP
POST https://{endpoint}/v2/{recognizer=projects/*/locations/*/recognizers/*}:recognize
Dengan {endpoint}
adalah salah satu endpoint layanan yang didukung.
URL menggunakan sintaksis gRPC Transcoding.
Parameter lokasi
Parameter | |
---|---|
recognizer |
Wajib. Nama Pengenal yang digunakan selama pengenalan. Format yang diharapkan adalah |
Isi permintaan
Isi permintaan memuat data dengan struktur berikut:
Representasi JSON |
---|
{ "config": { object ( |
Kolom | |
---|---|
config |
Fitur dan metadata audio yang akan digunakan untuk Pengenalan Ucapan Otomatis. Kolom ini yang dikombinasikan dengan kolom |
configMask |
Daftar kolom di Ini adalah daftar yang dipisahkan koma yang berisi nama kolom yang sepenuhnya memenuhi syarat. Contoh: |
Kolom union audio_source . Sumber audio, yang berupa konten inline atau URI Google Cloud Storage. audio_source hanya ada berupa salah satu diantara berikut: |
|
content |
Byte data audio yang dienkode seperti yang ditentukan dalam String berenkode base64. |
uri |
URI yang mengarah ke file yang berisi byte data audio seperti yang ditentukan dalam |
Isi respons
Pesan respons untuk metode recognizers.recognize
.
Jika berhasil, isi respons memuat data dengan struktur berikut:
Representasi JSON |
---|
{ "results": [ { object ( |
Kolom | |
---|---|
results[] |
Daftar hasil transkripsi berurutan yang sesuai dengan bagian audio yang berurutan. |
metadata |
Metadata tentang pengenalan. |
Cakupan otorisasi
Memerlukan cakupan OAuth berikut:
https://www.googleapis.com/auth/cloud-platform
Untuk informasi selengkapnya, lihat Ringkasan Autentikasi.
Izin IAM
Memerlukan izin IAM berikut pada resource recognizer
:
speech.recognizers.recognize
Untuk informasi lebih lanjut, lihat dokumentasi IAM.
SpeechRecognitionResult
Hasil pengenalan ucapan yang sesuai dengan sebagian audio.
Representasi JSON |
---|
{
"alternatives": [
{
object ( |
Kolom | |
---|---|
alternatives[] |
Dapat berisi satu atau beberapa hipotesis pengenalan. Alternatif ini diurutkan dalam hal akurasi, dengan alternatif teratas (pertama) yang paling mungkin, sesuai peringkat oleh pengenal. |
channelTag |
Untuk audio multi-saluran, ini adalah nomor saluran yang sesuai dengan hasil yang dikenali untuk audio dari saluran tersebut. Untuk |
resultEndOffset |
Offset waktu dari akhir hasil ini relatif terhadap awal audio. Durasi dalam detik dengan maksimal sembilan digit pecahan, diakhiri dengan ' |
languageCode |
Hanya output. Tag bahasa BCP-47 dari bahasa dalam hasil ini. Kode bahasa ini terdeteksi memiliki kemungkinan yang paling besar untuk diucapkan dalam audio. |
SpeechRecognitionAlternative
Hipotesis alternatif (alias daftar n-terbaik).
Representasi JSON |
---|
{
"transcript": string,
"confidence": number,
"words": [
{
object ( |
Kolom | |
---|---|
transcript |
Teks transkrip yang mewakili kata-kata yang diucapkan pengguna. |
confidence |
Estimasi keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali tersebut benar. Kolom ini hanya disetel untuk alternatif teratas hasil non-streaming atau, dari hasil streaming dengan |
words[] |
Daftar informasi khusus kata untuk setiap kata yang dikenali. Jika |
WordInfo
Informasi khusus kata untuk kata yang dikenali.
Representasi JSON |
---|
{ "startOffset": string, "endOffset": string, "word": string, "confidence": number, "speakerLabel": string } |
Kolom | |
---|---|
startOffset |
Offset waktu relatif terhadap awal audio, dan sesuai dengan awal kata yang diucapkan. Kolom ini hanya ditetapkan jika Durasi dalam detik dengan maksimal sembilan digit pecahan, diakhiri dengan ' |
endOffset |
Offset waktu relatif terhadap awal audio, dan sesuai dengan akhir kata yang diucapkan. Kolom ini hanya ditetapkan jika Durasi dalam detik dengan maksimal sembilan digit pecahan, diakhiri dengan ' |
word |
Kata yang sesuai dengan kumpulan informasi ini. |
confidence |
Estimasi keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali tersebut benar. Kolom ini hanya disetel untuk alternatif teratas hasil non-streaming atau, dari hasil streaming dengan |
speakerLabel |
Label yang berbeda ditetapkan untuk setiap speaker dalam audio. Bidang ini menentukan siapa dari pembicara tersebut yang terdeteksi telah mengucapkan kata ini. |
RecognitionResponseMetadata
Metadata tentang respons dan permintaan pengenalan.
Representasi JSON |
---|
{ "totalBilledDuration": string } |
Kolom | |
---|---|
totalBilledDuration |
Jika tersedia, detik audio yang ditagih untuk permintaan terkait. Durasi dalam detik dengan maksimal sembilan digit pecahan, diakhiri dengan ' |