Method: projects.locations.recognizers.recognize

Melakukan pengenalan Ucapan sinkron: menerima hasil setelah semua audio dikirim dan diproses.

Permintaan HTTP

POST https://{endpoint}/v2/{recognizer=projects/*/locations/*/recognizers/*}:recognize

Dengan {endpoint} adalah salah satu endpoint layanan yang didukung.

URL menggunakan sintaksis gRPC Transcoding.

Parameter lokasi

Parameter
recognizer

string

Wajib. Nama Pengenal yang digunakan selama pengenalan. Format yang diharapkan adalah projects/{project}/locations/{location}/recognizers/{recognizer}. Segmen {recognizer} dapat disetel ke _ untuk menggunakan Pengenal implisit kosong.

Isi permintaan

Isi permintaan memuat data dengan struktur berikut:

Representasi JSON
{
  "config": {
    object (RecognitionConfig)
  },
  "configMask": string,

  // Union field audio_source can be only one of the following:
  "content": string,
  "uri": string
  // End of list of possible types for union field audio_source.
}
Kolom
config

object (RecognitionConfig)

Fitur dan metadata audio yang akan digunakan untuk Pengenalan Ucapan Otomatis. Kolom ini yang dikombinasikan dengan kolom configMask dapat digunakan untuk mengganti bagian defaultRecognitionConfig resource Pengenal.

configMask

string (FieldMask format)

Daftar kolom di config yang menggantikan nilai dalam defaultRecognitionConfig pengenal selama permintaan pengenalan ini. Jika tidak ada mask yang diberikan, semua kolom bernilai non-default di config akan mengganti nilai dalam pengenal untuk permintaan pengenalan ini. Jika mask disediakan, hanya kolom yang tercantum dalam mask yang akan mengganti konfigurasi dalam pengenal untuk permintaan pengenalan ini. Jika karakter pengganti (*) diberikan, config akan sepenuhnya mengganti dan menggantikan konfigurasi di pengenal untuk permintaan pengenalan ini.

Ini adalah daftar yang dipisahkan koma yang berisi nama kolom yang sepenuhnya memenuhi syarat. Contoh: "user.displayName,photo".

Kolom union audio_source. Sumber audio, yang berupa konten inline atau URI Google Cloud Storage. audio_source hanya ada berupa salah satu diantara berikut:
content

string (bytes format)

Byte data audio yang dienkode seperti yang ditentukan dalam RecognitionConfig. Seperti semua kolom byte, buffer proto menggunakan representasi biner murni, sedangkan representasi JSON menggunakan base64.

String berenkode base64.

uri

string

URI yang mengarah ke file yang berisi byte data audio seperti yang ditentukan dalam RecognitionConfig. File tidak boleh dikompresi (misalnya, gzip). Saat ini, hanya URI Google Cloud Storage yang didukung, yang harus ditentukan dalam format berikut: gs://bucket_name/object_name (format URI lainnya menampilkan INVALID_ARGUMENT). Untuk informasi selengkapnya, lihat URI Permintaan.

Isi respons

Pesan respons untuk metode recognizers.recognize.

Jika berhasil, isi respons memuat data dengan struktur berikut:

Representasi JSON
{
  "results": [
    {
      object (SpeechRecognitionResult)
    }
  ],
  "metadata": {
    object (RecognitionResponseMetadata)
  }
}
Kolom
results[]

object (SpeechRecognitionResult)

Daftar hasil transkripsi berurutan yang sesuai dengan bagian audio yang berurutan.

metadata

object (RecognitionResponseMetadata)

Metadata tentang pengenalan.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk informasi selengkapnya, lihat Ringkasan Autentikasi.

Izin IAM

Memerlukan izin IAM berikut pada resource recognizer:

  • speech.recognizers.recognize

Untuk informasi lebih lanjut, lihat dokumentasi IAM.

SpeechRecognitionResult

Hasil pengenalan ucapan yang sesuai dengan sebagian audio.

Representasi JSON
{
  "alternatives": [
    {
      object (SpeechRecognitionAlternative)
    }
  ],
  "channelTag": integer,
  "resultEndOffset": string,
  "languageCode": string
}
Kolom
alternatives[]

object (SpeechRecognitionAlternative)

Dapat berisi satu atau beberapa hipotesis pengenalan. Alternatif ini diurutkan dalam hal akurasi, dengan alternatif teratas (pertama) yang paling mungkin, sesuai peringkat oleh pengenal.

channelTag

integer

Untuk audio multi-saluran, ini adalah nomor saluran yang sesuai dengan hasil yang dikenali untuk audio dari saluran tersebut. Untuk audioChannelCount = N, nilai outputnya dapat berkisar dari 1 hingga N.

resultEndOffset

string (Duration format)

Offset waktu dari akhir hasil ini relatif terhadap awal audio.

Durasi dalam detik dengan maksimal sembilan digit pecahan, diakhiri dengan 's'. Contoh: "3.5s".

languageCode

string

Hanya output. Tag bahasa BCP-47 dari bahasa dalam hasil ini. Kode bahasa ini terdeteksi memiliki kemungkinan yang paling besar untuk diucapkan dalam audio.

SpeechRecognitionAlternative

Hipotesis alternatif (alias daftar n-terbaik).

Representasi JSON
{
  "transcript": string,
  "confidence": number,
  "words": [
    {
      object (WordInfo)
    }
  ]
}
Kolom
transcript

string

Teks transkrip yang mewakili kata-kata yang diucapkan pengguna.

confidence

number

Estimasi keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali tersebut benar. Kolom ini hanya disetel untuk alternatif teratas hasil non-streaming atau, dari hasil streaming dengan isFinal disetel ke true. Kolom ini tidak dijamin akurat dan pengguna tidak boleh mengandalkannya agar selalu diberikan. Nilai default 0,0 adalah nilai sentinel yang menunjukkan confidence tidak ditetapkan.

words[]

object (WordInfo)

Daftar informasi khusus kata untuk setiap kata yang dikenali. Jika SpeakerDiarizationConfig disetel, Anda akan melihat semua kata dari awal audio.

WordInfo

Informasi khusus kata untuk kata yang dikenali.

Representasi JSON
{
  "startOffset": string,
  "endOffset": string,
  "word": string,
  "confidence": number,
  "speakerLabel": string
}
Kolom
startOffset

string (Duration format)

Offset waktu relatif terhadap awal audio, dan sesuai dengan awal kata yang diucapkan. Kolom ini hanya ditetapkan jika enableWordTimeOffsets adalah true dan hanya dalam hipotesis teratas. Ini adalah fitur eksperimental dan keakuratan selisih waktu dapat bervariasi.

Durasi dalam detik dengan maksimal sembilan digit pecahan, diakhiri dengan 's'. Contoh: "3.5s".

endOffset

string (Duration format)

Offset waktu relatif terhadap awal audio, dan sesuai dengan akhir kata yang diucapkan. Kolom ini hanya ditetapkan jika enableWordTimeOffsets adalah true dan hanya dalam hipotesis teratas. Ini adalah fitur eksperimental dan keakuratan selisih waktu dapat bervariasi.

Durasi dalam detik dengan maksimal sembilan digit pecahan, diakhiri dengan 's'. Contoh: "3.5s".

word

string

Kata yang sesuai dengan kumpulan informasi ini.

confidence

number

Estimasi keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali tersebut benar. Kolom ini hanya disetel untuk alternatif teratas hasil non-streaming atau, dari hasil streaming dengan isFinal disetel ke true. Kolom ini tidak dijamin akurat dan pengguna tidak boleh mengandalkannya agar selalu diberikan. Nilai default 0,0 adalah nilai sentinel yang menunjukkan confidence tidak ditetapkan.

speakerLabel

string

Label yang berbeda ditetapkan untuk setiap speaker dalam audio. Bidang ini menentukan siapa dari pembicara tersebut yang terdeteksi telah mengucapkan kata ini. speakerLabel ditetapkan jika SpeakerDiarizationConfig diberikan dan hanya di alternatif teratas.

RecognitionResponseMetadata

Metadata tentang respons dan permintaan pengenalan.

Representasi JSON
{
  "totalBilledDuration": string
}
Kolom
totalBilledDuration

string (Duration format)

Jika tersedia, detik audio yang ditagih untuk permintaan terkait.

Durasi dalam detik dengan maksimal sembilan digit pecahan, diakhiri dengan 's'. Contoh: "3.5s".