Halaman ini diterjemahkan oleh Cloud Translation API.

Method: projects.locations.recognizers.recognize

Permintaan HTTP
Parameter lokasi
Isi permintaan
- Representasi JSON
Isi respons
- Representasi JSON
Cakupan otorisasi
Izin IAM
SpeechRecognitionResult
- Representasi JSON
SpeechRecognitionAlternative
- Representasi JSON
WordInfo
- Representasi JSON
RecognitionResponseMetadata
- Representasi JSON

Melakukan pengenalan Ucapan sinkron: menerima hasil setelah semua audio dikirim dan diproses.

Permintaan HTTP

POST https://{endpoint}/v2/{recognizer=projects/*/locations/*/recognizers/*}:recognize

Dengan {endpoint} adalah salah satu endpoint layanan yang didukung.

URL menggunakan sintaksis gRPC Transcoding.

Parameter lokasi

Parameter

Parameter
`recognizer`	`string` Wajib. Nama Pengenal yang digunakan selama pengenalan. Format yang diharapkan adalah `projects/{project}/locations/{location}/recognizers/{recognizer}`. Segmen {recognizer} dapat disetel ke `_` untuk menggunakan Pengenal implisit kosong.

recognizer

string

Wajib. Nama Pengenal yang digunakan selama pengenalan. Format yang diharapkan adalah projects/{project}/locations/{location}/recognizers/{recognizer}. Segmen {recognizer} dapat disetel ke _ untuk menggunakan Pengenal implisit kosong.

Isi permintaan

Isi permintaan memuat data dengan struktur berikut:

Representasi JSON

Representasi JSON
{ "config": { object (`RecognitionConfig`) }, "configMask": string, // Union field `audio_source` can be only one of the following: "content": string, "uri": string // End of list of possible types for union field `audio_source`. }

{
  "config": {
    object (RecognitionConfig)
  },
  "configMask": string,

  // Union field audio_source can be only one of the following:
  "content": string,
  "uri": string
  // End of list of possible types for union field audio_source.
}

Kolom
`config`	`object (RecognitionConfig)` Fitur dan metadata audio yang akan digunakan untuk Pengenalan Ucapan Otomatis. Kolom ini yang dikombinasikan dengan kolom `configMask` dapat digunakan untuk mengganti bagian `defaultRecognitionConfig` resource Pengenal.
`configMask`	`string (FieldMask format)` Daftar kolom di `config` yang menggantikan nilai dalam `defaultRecognitionConfig` pengenal selama permintaan pengenalan ini. Jika tidak ada mask yang diberikan, semua kolom bernilai non-default di `config` akan mengganti nilai dalam pengenal untuk permintaan pengenalan ini. Jika mask disediakan, hanya kolom yang tercantum dalam mask yang akan mengganti konfigurasi dalam pengenal untuk permintaan pengenalan ini. Jika karakter pengganti (`*`) diberikan, `config` akan sepenuhnya mengganti dan menggantikan konfigurasi di pengenal untuk permintaan pengenalan ini. Ini adalah daftar yang dipisahkan koma yang berisi nama kolom yang sepenuhnya memenuhi syarat. Contoh: `"user.displayName,photo"`.
Kolom union `audio_source`. Sumber audio, yang berupa konten inline atau URI Google Cloud Storage. `audio_source` hanya ada berupa salah satu diantara berikut:
`content`	`string (bytes format)` Byte data audio yang dienkode seperti yang ditentukan dalam `RecognitionConfig`. Seperti semua kolom byte, buffer proto menggunakan representasi biner murni, sedangkan representasi JSON menggunakan base64. String berenkode base64.
`uri`	`string` URI yang mengarah ke file yang berisi byte data audio seperti yang ditentukan dalam `RecognitionConfig`. File tidak boleh dikompresi (misalnya, gzip). Saat ini, hanya URI Google Cloud Storage yang didukung, yang harus ditentukan dalam format berikut: `gs://bucket_name/object_name` (format URI lainnya menampilkan `INVALID_ARGUMENT`). Untuk informasi selengkapnya, lihat URI Permintaan.

Isi respons

Pesan respons untuk metode recognizers.recognize.

Jika berhasil, isi respons memuat data dengan struktur berikut:

Representasi JSON
{ "results": [ { object (`SpeechRecognitionResult`) } ], "metadata": { object (`RecognitionResponseMetadata`) } }

Kolom

Kolom
`results[]`	`object (SpeechRecognitionResult)` Daftar hasil transkripsi berurutan yang sesuai dengan bagian audio yang berurutan.
`metadata`	`object (RecognitionResponseMetadata)` Metadata tentang pengenalan.

results[]

object (SpeechRecognitionResult)

Daftar hasil transkripsi berurutan yang sesuai dengan bagian audio yang berurutan.

metadata

object (RecognitionResponseMetadata)

Metadata tentang pengenalan.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

https://www.googleapis.com/auth/cloud-platform

Untuk informasi selengkapnya, lihat Ringkasan Autentikasi.

Izin IAM

Memerlukan izin IAM berikut pada resource recognizer:

speech.recognizers.recognize

Untuk informasi lebih lanjut, lihat dokumentasi IAM.

SpeechRecognitionResult

Hasil pengenalan ucapan yang sesuai dengan sebagian audio.

Representasi JSON
{ "alternatives": [ { object (`SpeechRecognitionAlternative`) } ], "channelTag": integer, "resultEndOffset": string, "languageCode": string }

Kolom
`alternatives[]`	`object (SpeechRecognitionAlternative)` Dapat berisi satu atau beberapa hipotesis pengenalan. Alternatif ini diurutkan dalam hal akurasi, dengan alternatif teratas (pertama) yang paling mungkin, sesuai peringkat oleh pengenal.
`channelTag`	`integer` Untuk audio multi-saluran, ini adalah nomor saluran yang sesuai dengan hasil yang dikenali untuk audio dari saluran tersebut. Untuk `audioChannelCount` = `N`, nilai outputnya dapat berkisar dari `1` hingga `N`.
`resultEndOffset`	`string (Duration format)` Offset waktu dari akhir hasil ini relatif terhadap awal audio. Durasi dalam detik dengan maksimal sembilan digit pecahan, diakhiri dengan '`s`'. Contoh: `"3.5s"`.
`languageCode`	`string` Hanya output. Tag bahasa BCP-47 dari bahasa dalam hasil ini. Kode bahasa ini terdeteksi memiliki kemungkinan yang paling besar untuk diucapkan dalam audio.

SpeechRecognitionAlternative

Hipotesis alternatif (alias daftar n-terbaik).

Representasi JSON
{ "transcript": string, "confidence": number, "words": [ { object (`WordInfo`) } ] }

Kolom

Kolom
`transcript`	`string` Teks transkrip yang mewakili kata-kata yang diucapkan pengguna.
`confidence`	`number` Estimasi keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali tersebut benar. Kolom ini hanya disetel untuk alternatif teratas hasil non-streaming atau, dari hasil streaming dengan `isFinal` disetel ke `true`. Kolom ini tidak dijamin akurat dan pengguna tidak boleh mengandalkannya agar selalu diberikan. Nilai default 0,0 adalah nilai sentinel yang menunjukkan `confidence` tidak ditetapkan.
`words[]`	`object (WordInfo)` Daftar informasi khusus kata untuk setiap kata yang dikenali. Jika `SpeakerDiarizationConfig` disetel, Anda akan melihat semua kata dari awal audio.

transcript

string

Teks transkrip yang mewakili kata-kata yang diucapkan pengguna.

confidence

number

Estimasi keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali tersebut benar. Kolom ini hanya disetel untuk alternatif teratas hasil non-streaming atau, dari hasil streaming dengan isFinal disetel ke true. Kolom ini tidak dijamin akurat dan pengguna tidak boleh mengandalkannya agar selalu diberikan. Nilai default 0,0 adalah nilai sentinel yang menunjukkan confidence tidak ditetapkan.

words[]

object (WordInfo)

Daftar informasi khusus kata untuk setiap kata yang dikenali. Jika SpeakerDiarizationConfig disetel, Anda akan melihat semua kata dari awal audio.

WordInfo

Informasi khusus kata untuk kata yang dikenali.

Representasi JSON
{ "startOffset": string, "endOffset": string, "word": string, "confidence": number, "speakerLabel": string }

Kolom
`startOffset`	`string (Duration format)` Offset waktu relatif terhadap awal audio, dan sesuai dengan awal kata yang diucapkan. Kolom ini hanya ditetapkan jika `enableWordTimeOffsets` adalah `true` dan hanya dalam hipotesis teratas. Ini adalah fitur eksperimental dan keakuratan selisih waktu dapat bervariasi. Durasi dalam detik dengan maksimal sembilan digit pecahan, diakhiri dengan '`s`'. Contoh: `"3.5s"`.
`endOffset`	`string (Duration format)` Offset waktu relatif terhadap awal audio, dan sesuai dengan akhir kata yang diucapkan. Kolom ini hanya ditetapkan jika `enableWordTimeOffsets` adalah `true` dan hanya dalam hipotesis teratas. Ini adalah fitur eksperimental dan keakuratan selisih waktu dapat bervariasi. Durasi dalam detik dengan maksimal sembilan digit pecahan, diakhiri dengan '`s`'. Contoh: `"3.5s"`.
`word`	`string` Kata yang sesuai dengan kumpulan informasi ini.
`confidence`	`number` Estimasi keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali tersebut benar. Kolom ini hanya disetel untuk alternatif teratas hasil non-streaming atau, dari hasil streaming dengan `isFinal` disetel ke `true`. Kolom ini tidak dijamin akurat dan pengguna tidak boleh mengandalkannya agar selalu diberikan. Nilai default 0,0 adalah nilai sentinel yang menunjukkan `confidence` tidak ditetapkan.
`speakerLabel`	`string` Label yang berbeda ditetapkan untuk setiap speaker dalam audio. Bidang ini menentukan siapa dari pembicara tersebut yang terdeteksi telah mengucapkan kata ini. `speakerLabel` ditetapkan jika `SpeakerDiarizationConfig` diberikan dan hanya di alternatif teratas.

RecognitionResponseMetadata

Metadata tentang respons dan permintaan pengenalan.

Representasi JSON
{ "totalBilledDuration": string }

Kolom

totalBilledDuration

string (Duration format)

Jika tersedia, detik audio yang ditagih untuk permintaan terkait.

Durasi dalam detik dengan maksimal sembilan digit pecahan, diakhiri dengan 's'. Contoh: "3.5s".