Indeks
Speech
(antar muka)AccessMetadata
(pesan)AccessMetadata.ConstraintType
(enum)AutoDetectDecodingConfig
(pesan)BatchRecognizeFileMetadata
(pesan)BatchRecognizeFileResult
(pesan)BatchRecognizeMetadata
(pesan)BatchRecognizeRequest
(pesan)BatchRecognizeRequest.ProcessingStrategy
(enum)BatchRecognizeResponse
(pesan)BatchRecognizeResults
(pesan)BatchRecognizeTranscriptionMetadata
(pesan)CloudStorageResult
(pesan)Config
(pesan)CreateCustomClassRequest
(pesan)CreatePhraseSetRequest
(pesan)CreateRecognizerRequest
(pesan)CustomClass
(pesan)CustomClass.ClassItem
(pesan)CustomClass.State
(enum)DeleteCustomClassRequest
(pesan)DeletePhraseSetRequest
(pesan)DeleteRecognizerRequest
(pesan)ExplicitDecodingConfig
(pesan)ExplicitDecodingConfig.AudioEncoding
(enum)GcsOutputConfig
(pesan)GetConfigRequest
(pesan)GetCustomClassRequest
(pesan)GetPhraseSetRequest
(pesan)GetRecognizerRequest
(pesan)InlineOutputConfig
(pesan)InlineResult
(pesan)LanguageMetadata
(pesan)ListCustomClassesRequest
(pesan)ListCustomClassesResponse
(pesan)ListPhraseSetsRequest
(pesan)ListPhraseSetsResponse
(pesan)ListRecognizersRequest
(pesan)ListRecognizersResponse
(pesan)LocationsMetadata
(pesan)ModelFeature
(pesan)ModelFeatures
(pesan)ModelMetadata
(pesan)NativeOutputFileFormatConfig
(pesan)OperationMetadata
(pesan)OutputFormatConfig
(pesan)PhraseSet
(pesan)PhraseSet.Phrase
(pesan)PhraseSet.State
(enum)RecognitionConfig
(pesan)RecognitionFeatures
(pesan)RecognitionFeatures.MultiChannelMode
(enum)RecognitionOutputConfig
(pesan)RecognitionResponseMetadata
(pesan)RecognizeRequest
(pesan)RecognizeResponse
(pesan)Recognizer
(pesan)Recognizer.State
(enum)SpeakerDiarizationConfig
(pesan)SpeechAdaptation
(pesan)SpeechAdaptation.AdaptationPhraseSet
(pesan)SpeechRecognitionAlternative
(pesan)SpeechRecognitionResult
(pesan)SrtOutputFileFormatConfig
(pesan)StreamingRecognitionConfig
(pesan)StreamingRecognitionFeatures
(pesan)StreamingRecognitionFeatures.VoiceActivityTimeout
(pesan)StreamingRecognitionResult
(pesan)StreamingRecognizeRequest
(pesan)StreamingRecognizeResponse
(pesan)StreamingRecognizeResponse.SpeechEventType
(enum)TranscriptNormalization
(pesan)TranscriptNormalization.Entry
(pesan)UndeleteCustomClassRequest
(pesan)UndeletePhraseSetRequest
(pesan)UndeleteRecognizerRequest
(pesan)UpdateConfigRequest
(pesan)UpdateCustomClassRequest
(pesan)UpdatePhraseSetRequest
(pesan)UpdateRecognizerRequest
(pesan)VttOutputFileFormatConfig
(pesan)WordInfo
(pesan)
Speech
Mengaktifkan transkripsi ucapan dan pengelolaan resource.
BatchRecognize |
---|
Melakukan pengenalan ucapan asinkron batch: mengirim permintaan dengan file N audio dan menerima operasi yang berjalan lama yang dapat di-polling untuk mengetahui kapan transkripsi selesai.
|
CreateCustomClass |
---|
Membuat
|
CreatePhraseSet |
---|
Membuat
|
CreateRecognizer |
---|
Membuat
|
DeleteCustomClass |
---|
Menghapus
|
DeletePhraseSet |
---|
Menghapus
|
DeleteRecognizer |
---|
Menghapus
|
GetConfig |
---|
Menampilkan
|
GetCustomClass |
---|
Menampilkan
|
GetPhraseSet |
---|
Menampilkan
|
GetRecognizer |
---|
Menampilkan
|
ListCustomClasses |
---|
Mencantumkan CustomClass.
|
ListPhraseSets |
---|
Mencantumkan PhraseSet.
|
ListRecognizers |
---|
Pengenal Daftar.
|
Kenali |
---|
Melakukan pengenalan Ucapan sinkron: menerima hasil setelah semua audio dikirim dan diproses.
|
StreamingRecognize |
---|
Melakukan pengenalan ucapan streaming dua arah: menerima hasil saat mengirimkan audio. Metode ini hanya tersedia melalui gRPC API (bukan REST).
|
UndeleteCustomClass |
---|
Membatalkan penghapusan
|
UndeletePhraseSet |
---|
Membatalkan penghapusan
|
UndeleteRecognizer |
---|
Membatalkan penghapusan
|
UpdateConfig |
---|
Mengupdate
|
UpdateCustomClass |
---|
Mengupdate
|
UpdatePhraseSet |
---|
Mengupdate
|
UpdateRecognizer |
---|
Mengupdate
|
AccessMetadata
Metadata akses untuk region tertentu. Ini dapat diterapkan jika kebijakan organisasi untuk project tertentu melarang region tertentu.
Kolom | |
---|---|
constraint_type |
Menjelaskan berbagai jenis batasan yang diterapkan. |
ConstraintType
Menjelaskan berbagai jenis batasan yang dapat diterapkan pada suatu wilayah.
Enum | |
---|---|
CONSTRAINT_TYPE_UNSPECIFIED |
Batasan yang belum ditetapkan diterapkan. |
RESOURCE_LOCATIONS_ORG_POLICY_CREATE_CONSTRAINT |
Kebijakan organisasi project melarang region yang ditentukan. |
AutoDetectDecodingConfig
Jenis ini tidak memiliki kolom.
Parameter decoding terdeteksi secara otomatis. Didukung untuk encoding berikut:
WAV_LINEAR16: Sampel PCM little-endian 16-bit yang ditandatangani dalam container WAV.
WAV_MULAW: Sampel mulaw yang digabungkan 8-bit dalam container WAV.
WAV_ALAW: Sampel alaw yang digabungkan 8-bit dalam penampung WAV.
RFC4867_5_AMR: Frame AMR dengan header rfc4867.5.
RFC4867_5_AMRWB: Frame AMR-WB dengan header rfc4867.5.
FLAC: Bingkai FLAC dalam format container "FLAC native".
MP3: Bingkai audio MPEG dengan metadata ID3 opsional (diabaikan).
OGG_OPUS: Bingkai audio Opus dalam penampung Ogg.
WEBM_OPUS: Bingkai audio Opus dalam penampung WebM.
M4A: Format audio M4A.
BatchRecognizeFileMetadata
Metadata tentang satu file dalam batch untuk BatchRecognize.
Kolom | |
---|---|
config |
Fitur dan metadata audio yang akan digunakan untuk Pengenalan Ucapan Otomatis. Kolom ini yang dikombinasikan dengan kolom |
config_mask |
Daftar kolom di |
Kolom union audio_source . Sumber audio, yang merupakan URI Google Cloud Storage. audio_source hanya ada berupa salah satu diantara berikut: |
|
uri |
Cloud Storage URI untuk file audio. |
BatchRecognizeFileResult
Hasil akhir untuk satu file.
Kolom | |
---|---|
error |
Error jika ditemukan salah satunya. |
metadata |
|
uri |
Tidak digunakan lagi. Sebagai gantinya, gunakan |
transcript |
Tidak digunakan lagi. Sebagai gantinya, gunakan |
Kolom union
|
|
cloud_storage_result |
Hasil pengenalan yang ditulis ke Cloud Storage. Kolom ini hanya diisi saat |
inline_result |
Hasil pengenalan. Kolom ini hanya diisi saat |
BatchRecognizeMetadata
Metadata operasi untuk BatchRecognize
.
Kolom | |
---|---|
transcription_metadata |
Memetakan dari nama file yang diberikan ke metadata transkripsi untuk file tersebut. |
BatchRecognizeRequest
Pesan permintaan untuk metode BatchRecognize
.
Kolom | |
---|---|
recognizer |
Wajib. Nama Pengenal yang digunakan selama pengenalan. Format yang diharapkan adalah |
config |
Fitur dan metadata audio yang akan digunakan untuk Pengenalan Ucapan Otomatis. Kolom ini yang dikombinasikan dengan kolom |
config_mask |
Daftar kolom di |
files[] |
File audio dengan metadata file untuk ASR. Jumlah file maksimum yang diizinkan untuk ditentukan adalah 5. |
recognition_output_config |
Opsi konfigurasi untuk tempat menampilkan transkrip setiap file. |
processing_strategy |
Strategi pemrosesan yang akan digunakan untuk permintaan ini. |
ProcessingStrategy
Strategi pemrosesan yang mungkin digunakan untuk permintaan batch.
Enum | |
---|---|
PROCESSING_STRATEGY_UNSPECIFIED |
Nilai default untuk strategi pemrosesan. Permintaan akan diproses segera setelah diterima. |
DYNAMIC_BATCHING |
Jika dipilih, proses permintaan selama periode penggunaan yang lebih rendah untuk mendapatkan diskon harga. Permintaan akan dipenuhi dalam waktu 24 jam. |
BatchRecognizeResponse
Pesan respons untuk BatchRecognize
yang dikemas ke dalam Operation
yang berjalan lama.
Kolom | |
---|---|
results |
Petakan dari nama file ke hasil akhir file tersebut. |
total_billed_duration |
Jika tersedia, detik audio yang ditagih untuk permintaan terkait. |
BatchRecognizeResults
Jenis output untuk Cloud Storage transkrip BatchRecognize. Meskipun proto ini tidak ditampilkan dalam API ini di mana pun, transkrip Cloud Storage akan diserialisasi proto ini dan harus diurai seperti itu.
Kolom | |
---|---|
results[] |
Daftar hasil transkripsi berurutan yang sesuai dengan bagian audio yang berurutan. |
metadata |
Metadata tentang pengenalan. |
BatchRecognizeTranscriptionMetadata
Metadata tentang transkripsi untuk satu file (misalnya, persentase progres).
Kolom | |
---|---|
progress_percent |
Jumlah file yang telah ditranskripsikan sejauh ini. |
error |
Error jika ditemukan salah satunya. |
uri |
URI Cloud Storage tempat hasil pengenalan akan ditulis. |
CloudStorageResult
Hasil akhir ditulis ke Cloud Storage.
Kolom | |
---|---|
uri |
URI Cloud Storage tempat hasil pengenalan ditulis. |
vtt_format_uri |
URI Cloud Storage tempat hasil pengenalan ditulis sebagai teks berformat VTT. Kolom ini hanya diisi saat output |
srt_format_uri |
URI Cloud Storage tempat hasil pengenalan ditulis sebagai teks berformat SRT. Kolom ini hanya diisi saat output |
Konfigurasi
Pesan yang merepresentasikan konfigurasi untuk Speech-to-Text API. Hal ini mencakup kunci KMS opsional yang akan digunakan untuk mengenkripsi data yang masuk.
Kolom | |
---|---|
name |
Hanya output. Pengenal. Nama resource konfigurasi. Hanya ada satu resource konfigurasi per project per lokasi. Format yang diharapkan adalah |
kms_key_name |
Opsional. Nama kunci KMS opsional yang jika ada, akan digunakan untuk mengenkripsi resource Speech-to-Text dalam penyimpanan. Memperbarui kunci ini tidak akan mengenkripsi resource yang ada menggunakan kunci ini. Hanya resource baru yang akan dienkripsi menggunakan kunci ini. Format yang diharapkan adalah |
update_time |
Hanya output. Terakhir kali resource ini diubah. |
CreateCustomClassRequest
Pesan permintaan untuk metode CreateCustomClass
.
Kolom | |
---|---|
custom_class |
Wajib. CustomClass yang akan dibuat. |
validate_only |
Jika ditetapkan, validasi permintaan dan pratinjau CustomClass, tetapi jangan benar-benar membuatnya. |
custom_class_id |
ID yang akan digunakan untuk CustomClass, yang akan menjadi komponen akhir dari nama resource CustomClass. Nilai ini harus terdiri dari 4-63 karakter, dan karakter yang valid adalah /[a-z][0-9]-/. |
parent |
Wajib. Project dan lokasi tempat CustomClass ini akan dibuat. Format yang diharapkan adalah |
CreatePhraseSetRequest
Pesan permintaan untuk metode CreatePhraseSet
.
Kolom | |
---|---|
phrase_set |
Wajib. PhraseSet yang akan dibuat. |
validate_only |
Jika ditetapkan, validasi permintaan dan pratinjau PhraseSet, tetapi jangan benar-benar membuatnya. |
phrase_set_id |
ID yang akan digunakan untuk PhraseSet, yang akan menjadi komponen akhir dari nama resource PhraseSet. Nilai ini harus terdiri dari 4-63 karakter, dan karakter yang valid adalah /[a-z][0-9]-/. |
parent |
Wajib. Project dan lokasi tempat PhraseSet ini akan dibuat. Format yang diharapkan adalah |
CreateRecognizerRequest
Pesan permintaan untuk metode CreateRecognizer
.
Kolom | |
---|---|
recognizer |
Wajib. Pengenal yang akan dibuat. |
validate_only |
Jika ditetapkan, validasi permintaan dan pratinjau Pengenal, tetapi jangan benar-benar membuatnya. |
recognizer_id |
ID yang akan digunakan untuk Pengenal, yang akan menjadi komponen akhir nama resource Pengenal. Nilai ini harus terdiri dari 4-63 karakter, dan karakter yang valid adalah /[a-z][0-9]-/. |
parent |
Wajib. Project dan lokasi tempat Pengenal ini akan dibuat. Format yang diharapkan adalah |
CustomClass
CustomClass untuk pembiasan dalam pengenalan ucapan. Digunakan untuk mendefinisikan kumpulan kata atau frasa yang mewakili konsep atau tema umum yang mungkin muncul di audio Anda, misalnya daftar nama kapal penumpang.
Kolom | |
---|---|
name |
Hanya output. Pengenal. Nama resource CustomClass. Format |
uid |
Hanya output. ID unik yang ditetapkan sistem untuk CustomClass. |
display_name |
Opsional. Nama yang dapat ditetapkan pengguna dan dapat dibaca manusia untuk CustomClass. Harus terdiri dari 63 karakter atau kurang. |
items[] |
Koleksi item kelas. |
state |
Hanya output. Status siklus proses CustomClass. |
create_time |
Hanya output. Waktu pembuatan. |
update_time |
Hanya output. Terakhir kali resource ini diubah. |
delete_time |
Hanya output. Waktu saat resource ini diminta untuk dihapus. |
expire_time |
Hanya output. Waktu saat resource ini akan dihapus permanen. |
annotations |
Opsional. Memungkinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Kunci dan nilai masing-masing harus terdiri dari 63 karakter atau kurang. Maksimal 100 anotasi. |
etag |
Hanya output. Checksum ini dihitung oleh server berdasarkan nilai {i>field<i} lain. Ini dapat dikirim pada saat permintaan pembaruan, pembatalan penghapusan, dan penghapusan untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
reconciling |
Hanya output. Apakah CustomClass ini sedang dalam proses diupdate atau tidak. |
kms_key_name |
Hanya output. Nama kunci KMS yang digunakan untuk mengenkripsi CustomClass. Format yang diharapkan adalah |
kms_key_version_name |
Hanya output. Nama versi kunci KMS yang digunakan untuk mengenkripsi CustomClass. Format yang diharapkan adalah |
ClassItem
Item dari class.
Kolom | |
---|---|
value |
Nilai item kelas. |
Negara bagian/Provinsi
Kumpulan status yang menentukan siklus proses CustomClass.
Enum | |
---|---|
STATE_UNSPECIFIED |
Status tidak ditentukan. Ini hanya digunakan/berguna untuk membedakan nilai yang tidak ditetapkan. |
ACTIVE |
Status normal dan aktif. |
DELETED |
CustomClass ini telah dihapus. |
DeleteCustomClassRequest
Pesan permintaan untuk metode DeleteCustomClass
.
Kolom | |
---|---|
name |
Wajib. Nama CustomClass yang akan dihapus. Format: |
validate_only |
Jika ditetapkan, validasi permintaan dan pratinjau CustomClass yang dihapus, tetapi jangan benar-benar menghapusnya. |
allow_missing |
Jika disetel ke true, dan CustomClass tidak ditemukan, permintaan akan berhasil dan tanpa pengoperasian (tidak ada Operasi yang dicatat dalam kasus ini). |
etag |
Checksum ini dihitung oleh server berdasarkan nilai {i>field<i} lain. Ini dapat dikirim pada saat permintaan pembaruan, pembatalan penghapusan, dan penghapusan untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
DeletePhraseSetRequest
Pesan permintaan untuk metode DeletePhraseSet
.
Kolom | |
---|---|
name |
Wajib. Nama PhraseSet yang akan dihapus. Format: |
validate_only |
Jika ditetapkan, validasi permintaan dan pratinjau PhraseSet yang dihapus, tetapi jangan benar-benar menghapusnya. |
allow_missing |
Jika disetel ke true, dan PhraseSet tidak ditemukan, permintaan akan berhasil dan tanpa pengoperasian (tidak ada Operasi yang dicatat dalam kasus ini). |
etag |
Checksum ini dihitung oleh server berdasarkan nilai {i>field<i} lain. Ini dapat dikirim pada saat permintaan pembaruan, pembatalan penghapusan, dan penghapusan untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
DeleteRecognizerRequest
Pesan permintaan untuk metode DeleteRecognizer
.
Kolom | |
---|---|
name |
Wajib. Nama Pengenal yang akan dihapus. Format: |
validate_only |
Jika disetel, validasi permintaan dan pratinjau Pengenal yang dihapus, tetapi jangan benar-benar menghapusnya. |
allow_missing |
Jika disetel ke benar (true), dan Pengenal tidak ditemukan, permintaan akan berhasil dan tanpa pengoperasian (tidak ada Operasi yang dicatat dalam kasus ini). |
etag |
Checksum ini dihitung oleh server berdasarkan nilai {i>field<i} lain. Ini dapat dikirim pada saat permintaan pembaruan, pembatalan penghapusan, dan penghapusan untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
ExplicitDecodingConfig
Parameter decoding yang ditentukan secara eksplisit.
Kolom | |
---|---|
encoding |
Wajib. Encoding data audio yang dikirim untuk pengenalan. |
sample_rate_hertz |
Frekuensi sampel data audio dalam Hertz yang dikirim untuk pengenalan. Nilai yang valid adalah: 8000-48000. 16.000 sudah optimal. Untuk hasil terbaik, setel frekuensi sampling sumber audio ke 16.000 Hz. Jika tidak memungkinkan, gunakan frekuensi sampel native dari sumber audio (bukan pengambilan ulang sampel). Didukung untuk encoding berikut:
|
audio_channel_count |
Jumlah channel yang ada dalam data audio yang dikirim untuk pengenalan. Didukung untuk encoding berikut:
Nilai maksimum yang diizinkan adalah 8. |
AudioEncoding
Encoding data audio yang didukung.
Enum | |
---|---|
AUDIO_ENCODING_UNSPECIFIED |
Nilai default. Nilai ini tidak digunakan. |
LINEAR16 |
Sampel PCM kecil 16-bit tanpa header yang ditandatangani. |
MULAW |
Sampel mulaw yang digabungkan 8-bit header. |
ALAW |
Sampel alaw tanpa header 8-bit. |
GcsOutputConfig
Konfigurasi output untuk Cloud Storage.
Kolom | |
---|---|
uri |
Awalan URI Cloud Storage yang akan digunakan untuk menulis hasil pengenalan. |
GetConfigRequest
Pesan permintaan untuk metode GetConfig
.
Kolom | |
---|---|
name |
Wajib. Nama konfigurasi yang akan diambil. Hanya ada satu resource konfigurasi per project per lokasi. Format yang diharapkan adalah |
GetCustomClassRequest
Pesan permintaan untuk metode GetCustomClass
.
Kolom | |
---|---|
name |
Wajib. Nama CustomClass yang akan diambil. Format yang diharapkan adalah |
GetPhraseSetRequest
Pesan permintaan untuk metode GetPhraseSet
.
Kolom | |
---|---|
name |
Wajib. Nama PhraseSet yang akan diambil. Format yang diharapkan adalah |
GetRecognizerRequest
Pesan permintaan untuk metode GetRecognizer
.
Kolom | |
---|---|
name |
Wajib. Nama Pengenal yang akan diambil. Format yang diharapkan adalah |
InlineOutputConfig
Jenis ini tidak memiliki kolom.
Konfigurasi output untuk respons inline.
InlineResult
Hasil akhir yang ditampilkan inline dalam respons pengenalan.
Kolom | |
---|---|
transcript |
Transkrip untuk file audio. |
vtt_captions |
Transkrip untuk file audio sebagai teks berformat VTT. Kolom ini hanya diisi saat output |
srt_captions |
Transkrip untuk file audio sebagai teks berformat SRT. Kolom ini hanya diisi saat output |
LanguageMetadata
Metadata tentang lokalitas yang tersedia di region tertentu. Saat ini, hanya model yang tersedia untuk setiap lokalitas
Kolom | |
---|---|
models |
Peta lokal (kode bahasa) -> model |
ListCustomClassesRequest
Pesan permintaan untuk metode ListCustomClasses
.
Kolom | |
---|---|
parent |
Wajib. Project dan lokasi resource CustomClass yang akan dicantumkan. Format yang diharapkan adalah |
page_size |
Jumlah hasil per permintaan. Page_size yang valid memiliki rentang dari 0 hingga 100 inklusif. Jika page_size adalah nol atau tidak ditentukan, ukuran halaman 5 akan dipilih. Jika ukuran halaman melebihi 100, ukuran akan dikonversi menjadi 100. Perhatikan bahwa panggilan mungkin menampilkan hasil yang lebih sedikit daripada ukuran halaman yang diminta. |
page_token |
Token halaman, diterima dari panggilan Saat melakukan penomoran halaman, semua parameter lain yang disediakan ke |
show_deleted |
Apakah menampilkan fasilitas yang telah dihapus atau tidak. |
ListCustomClassesResponse
Pesan respons untuk metode ListCustomClasses
.
Kolom | |
---|---|
custom_classes[] |
Daftar CustomClass yang diminta. |
next_page_token |
Token, yang dapat dikirim sebagai |
ListPhraseSetsRequest
Pesan permintaan untuk metode ListPhraseSets
.
Kolom | |
---|---|
parent |
Wajib. Project dan lokasi resource PhraseSet yang ingin dicantumkan. Format yang diharapkan adalah |
page_size |
Jumlah maksimum PhraseSets yang ditampilkan. Layanan mungkin menampilkan lebih sedikit dari nilai ini. Jika tidak ditentukan, maksimal 5 PhraseSet akan ditampilkan. Nilai maksimum adalah 100; nilai di atas 100 akan dikonversi menjadi 100. |
page_token |
Token halaman, diterima dari panggilan Saat melakukan penomoran halaman, semua parameter lain yang disediakan ke |
show_deleted |
Apakah menampilkan fasilitas yang telah dihapus atau tidak. |
ListPhraseSetsResponse
Pesan respons untuk metode ListPhraseSets
.
Kolom | |
---|---|
phrase_sets[] |
Daftar PhraseSets yang diminta. |
next_page_token |
Token, yang dapat dikirim sebagai |
ListRecognizersRequest
Pesan permintaan untuk metode ListRecognizers
.
Kolom | |
---|---|
parent |
Wajib. Project dan lokasi Pengenal yang akan dicantumkan. Format yang diharapkan adalah |
page_size |
Jumlah maksimum Pengenal yang akan ditampilkan. Layanan mungkin menampilkan lebih sedikit dari nilai ini. Jika tidak ditentukan, maksimal 5 Pengenal akan ditampilkan. Nilai maksimum adalah 100; nilai di atas 100 akan dikonversi menjadi 100. |
page_token |
Token halaman, diterima dari panggilan Saat melakukan penomoran halaman, semua parameter lain yang disediakan ke |
show_deleted |
Apakah menampilkan fasilitas yang telah dihapus atau tidak. |
ListRecognizersResponse
Pesan respons untuk metode ListRecognizers
.
Kolom | |
---|---|
recognizers[] |
Daftar Pengenal yang diminta. |
next_page_token |
Token, yang dapat dikirim sebagai |
LocationsMetadata
Metadata utama untuk Locations API untuk STT V2. Saat ini, ini hanyalah metadata tentang lokalitas, model, dan fitur
Kolom | |
---|---|
languages |
Informasi tentang lokalitas, model, dan fitur yang tersedia yang direpresentasikan dalam struktur hierarki lokalitas -> model -> fitur |
access_metadata |
Informasi tentang metadata akses untuk region dan project yang ditentukan. |
ModelFeature
Mewakili fitur tunggal dari model. Jika fiturnya recognizer
, release_state fitur akan mewakili release_state model
Kolom | |
---|---|
feature |
Nama fitur (Catatan: fitur dapat berupa |
release_state |
Status rilis fitur |
ModelFeatures
Mewakili kumpulan fitur yang termasuk dalam model
Kolom | |
---|---|
model_feature[] |
Kolom berulang yang berisi semua fitur model |
ModelMetadata
Metadata tentang model di region tertentu untuk lokalitas tertentu. Saat ini, ini hanyalah fitur dari model
Kolom | |
---|---|
model_features |
Peta nama model -> fitur model tersebut |
NativeOutputFileFormatConfig
Jenis ini tidak memiliki kolom.
Konfigurasi output untuk proto BatchRecognizeResults
serial.
OperationMetadata
Mewakili metadata operasi yang berjalan lama.
Kolom | |
---|---|
create_time |
Waktu operasi dibuat. |
update_time |
Waktu operasi terakhir diperbarui. |
resource |
Jalur resource untuk target operasi. |
method |
Metode yang memicu operasi. |
kms_key_name |
Nama kunci KMS yang digunakan untuk mengenkripsi konten Operasi. Format yang diharapkan adalah |
kms_key_version_name |
Nama versi kunci KMS yang berisi konten Operasi yang dienkripsi. Format yang diharapkan adalah |
progress_percent |
Persentase progres Operasi. Nilai dapat berkisar dari 0-100. Jika nilainya 100, maka operasi selesai. |
Kolom union request . Permintaan yang menghasilkan Operasi. request hanya ada berupa salah satu diantara berikut: |
|
batch_recognize_request |
BatchRecognizeRequest yang menghasilkan Operasi. |
create_recognizer_request |
CreateRecognizerRequest yang melahirkan Operasi. |
update_recognizer_request |
UpdateRecognizerRequest yang melahirkan Operasi. |
delete_recognizer_request |
DeleteRecognizerRequest yang melahirkan Operasi. |
undelete_recognizer_request |
UndeleteRecognizerRequest yang melahirkan Operasi. |
create_custom_class_request |
CreateCustomClassRequest yang melahirkan Operasi. |
update_custom_class_request |
UpdateCustomClassRequest yang menghasilkan Operasi. |
delete_custom_class_request |
DeleteCustomClassRequest yang menghasilkan Operasi. |
undelete_custom_class_request |
UndeleteCustomClassRequest yang menghasilkan Operasi. |
create_phrase_set_request |
CreatePhraseSetRequest yang melahirkan Operasi. |
update_phrase_set_request |
UpdatePhraseSetRequest yang melahirkan Operasi. |
delete_phrase_set_request |
DeletePhraseSetRequest yang melahirkan Operasi. |
undelete_phrase_set_request |
UndeletePhraseSetRequest yang melahirkan Operasi. |
update_config_request |
UpdateConfigRequest yang melahirkan Operasi. |
Kolom union metadata . Metadata tertentu per RPC. metadata hanya ada berupa salah satu diantara berikut: |
|
batch_recognize_metadata |
Metadata khusus untuk metode BatchRecognize. |
OutputFormatConfig
Konfigurasi untuk format hasil yang disimpan ke output
.
Kolom | |
---|---|
native |
Konfigurasi untuk format output native. Jika kolom ini disetel, atau jika tidak ada kolom format output lain yang disetel, transkrip akan ditulis ke sink dalam format native. |
vtt |
Konfigurasi untuk format output VTT. Jika kolom ini disetel, transkrip akan ditulis ke sink dalam format VTT. |
srt |
Konfigurasi untuk format output SRT. Jika kolom ini disetel, transkrip akan ditulis ke sink dalam format SRT. |
PhraseSet
PhraseSet untuk membuat bias dalam pengenalan ucapan. PhraseSet digunakan untuk memberikan "petunjuk" bagi pengenal ucapan guna mendukung kata dan frasa tertentu dalam hasil.
Kolom | |
---|---|
name |
Hanya output. Pengenal. Nama resource PhraseSet. Format |
uid |
Hanya output. ID unik yang ditetapkan sistem untuk PhraseSet. |
phrases[] |
Daftar kata dan frasa. |
boost |
Peningkatan Petunjuk. Nilai positif akan meningkatkan kemungkinan bahwa frasa tertentu akan dikenali dari frasa lain yang terdengar serupa. Semakin tinggi peningkatannya, semakin tinggi juga peluang pengenalan positif palsunya. Nilai |
display_name |
Nama yang dapat ditetapkan pengguna dan dapat dibaca manusia untuk PhraseSet. Harus terdiri dari 63 karakter atau kurang. |
state |
Hanya output. Status siklus proses PhraseSet. |
create_time |
Hanya output. Waktu pembuatan. |
update_time |
Hanya output. Terakhir kali resource ini diubah. |
delete_time |
Hanya output. Waktu saat resource ini diminta untuk dihapus. |
expire_time |
Hanya output. Waktu saat resource ini akan dihapus permanen. |
annotations |
Memungkinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Kunci dan nilai masing-masing harus terdiri dari 63 karakter atau kurang. Maksimal 100 anotasi. |
etag |
Hanya output. Checksum ini dihitung oleh server berdasarkan nilai {i>field<i} lain. Ini dapat dikirim pada saat permintaan pembaruan, pembatalan penghapusan, dan penghapusan untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
reconciling |
Hanya output. Apakah PhraseSet ini sedang dalam proses update atau tidak. |
kms_key_name |
Hanya output. Nama kunci KMS yang akan digunakan untuk mengenkripsi PhraseSet. Format yang diharapkan adalah |
kms_key_version_name |
Hanya output. Nama versi kunci KMS yang akan digunakan untuk mengenkripsi PhraseSet. Format yang diharapkan adalah |
Frasa
Frasa berisi kata dan frasa "petunjuk" sehingga pengenalan ucapan lebih cenderung dapat mengenalinya. Ini dapat digunakan untuk meningkatkan akurasi kata dan frasa tertentu, misalnya, jika perintah tertentu biasanya diucapkan oleh pengguna. Fitur ini juga dapat digunakan untuk menambahkan kata lain ke kosakata pengenal.
Item daftar juga dapat menyertakan referensi CustomClass yang berisi grup kata yang mewakili konsep umum yang terjadi dalam bahasa alami.
Kolom | |
---|---|
value |
Frasa itu sendiri. |
boost |
Peningkatan Petunjuk. Mengganti peningkatan yang ditetapkan di tingkat kumpulan frasa. Nilai positif akan meningkatkan kemungkinan bahwa frasa tertentu akan dikenali dari frasa lain yang terdengar serupa. Semakin tinggi peningkatannya, semakin tinggi juga peluang pengenalan positif palsunya. Nilai peningkatan negatif berkaitan dengan anti-bias. Anti-bias tidak diaktifkan, sehingga nilai boost negatif akan menampilkan error. Nilai peningkatan harus antara 0 dan 20. Nilai di luar rentang tersebut akan mengembalikan kesalahan. Sebaiknya gunakan pendekatan penelusuran biner untuk menemukan nilai optimal bagi kasus penggunaan Anda serta menambahkan frasa dengan dan tanpa penguatan pada permintaan Anda. |
Negara bagian/Provinsi
Kumpulan status yang menentukan siklus proses PhraseSet.
Enum | |
---|---|
STATE_UNSPECIFIED |
Status tidak ditentukan. Ini hanya digunakan/berguna untuk membedakan nilai yang tidak ditetapkan. |
ACTIVE |
Status normal dan aktif. |
DELETED |
Set Frasa ini telah dihapus. |
RecognitionConfig
Memberikan informasi kepada Pengenal yang menentukan cara memproses permintaan pengenalan.
Kolom | |
---|---|
model |
Opsional. Model yang akan digunakan untuk permintaan pengenalan. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik. Panduan untuk memilih model yang akan digunakan dapat ditemukan di Dokumentasi Model Transkripsi. Model yang didukung di setiap wilayah dapat ditemukan di Tabel Model yang Didukung. |
language_codes[] |
Opsional. Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Tag bahasa dinormalkan menjadi BCP-47 sebelum digunakan, misalnya "en-us" menjadi "en-US". Bahasa yang didukung untuk setiap model tercantum dalam Tabel Model yang Didukung. Jika bahasa tambahan disediakan, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi pada audio. |
features |
Fitur pengenalan ucapan untuk mengaktifkan. |
adaptation |
Konteks adaptasi ucapan yang memberikan bobot prediksi pengenal untuk kata dan frasa tertentu. |
transcript_normalization |
Opsional. Gunakan normalisasi transkripsi untuk mengganti bagian transkrip secara otomatis dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial stabil (stabilitas > 0,8) dan transkrip akhir. |
Kolom union decoding_config . Parameter dekode untuk audio yang dikirim untuk pengenalan. decoding_config hanya ada berupa salah satu diantara berikut: |
|
auto_decoding_config |
Mendeteksi parameter decoding secara otomatis. Lebih disarankan untuk format yang didukung. |
explicit_decoding_config |
Parameter decoding yang ditentukan secara eksplisit. Wajib jika menggunakan audio PCM tanpa header (linear16, mulaw, alaw). |
RecognitionFeatures
Fitur pengenalan yang tersedia.
Kolom | |
---|---|
profanity_filter |
Jika disetel ke |
enable_word_time_offsets |
Jika |
enable_word_confidence |
Jika |
enable_automatic_punctuation |
Jika |
enable_spoken_punctuation |
Perilaku tanda baca lisan untuk panggilan. Jika |
enable_spoken_emojis |
Perilaku emoji lisan untuk panggilan. Jika |
multi_channel_mode |
Mode untuk mengenali audio multi-saluran. |
diarization_config |
Konfigurasi untuk mengaktifkan pemisahan pembicara dan menetapkan parameter tambahan agar diarisasi lebih sesuai untuk aplikasi Anda. Jika fitur ini diaktifkan, kami akan mengirimkan semua kata dari awal audio sebagai alternatif teratas dalam setiap respons STREAMING berturut-turut. Hal ini dilakukan untuk meningkatkan kualitas tag pembicara karena model kami belajar mengidentifikasi pembicara dalam percakapan dari waktu ke waktu. Untuk permintaan non-streaming, hasil diarisasi hanya akan diberikan di alternatif teratas FINAL SpeechRecognitionResult. |
max_alternatives |
Jumlah maksimum hipotesis pengenalan yang akan ditampilkan. Server mungkin menampilkan kurang dari |
MultiChannelMode
Opsi cara mengenali audio multi-saluran.
Enum | |
---|---|
MULTI_CHANNEL_MODE_UNSPECIFIED |
Nilai default untuk mode multi-saluran. Jika audio berisi beberapa channel, hanya channel pertama yang akan ditranskripsikan; channel lain akan diabaikan. |
SEPARATE_RECOGNITION_PER_CHANNEL |
Jika dipilih, setiap saluran dalam audio yang disediakan akan ditranskripsikan secara terpisah. Opsi ini tidak dapat dipilih jika model yang dipilih adalah latest_short . |
RecognitionOutputConfig
Opsi konfigurasi untuk output pengenalan.
Kolom | |
---|---|
output_format_config |
Opsional. Konfigurasi untuk format hasil yang disimpan ke |
Kolom union
|
|
gcs_output_config |
Jika pesan ini diisi, hasil pengenalan akan ditulis ke URI Google Cloud Storage yang disediakan. |
inline_response_config |
Jika pesan ini terisi, hasil pengenalan akan diberikan dalam pesan Operasi |
RecognitionResponseMetadata
Metadata tentang respons dan permintaan pengenalan.
Kolom | |
---|---|
total_billed_duration |
Jika tersedia, detik audio yang ditagih untuk permintaan terkait. |
RecognizeRequest
Pesan permintaan untuk metode Recognize
. content
atau uri
harus diberikan. Menyediakan keduanya atau tidak sama sekali akan menampilkan INVALID_ARGUMENT
. Lihat batas konten.
Kolom | |
---|---|
recognizer |
Wajib. Nama Pengenal yang digunakan selama pengenalan. Format yang diharapkan adalah |
config |
Fitur dan metadata audio yang akan digunakan untuk Pengenalan Ucapan Otomatis. Kolom ini yang dikombinasikan dengan kolom |
config_mask |
Daftar kolom di |
Kolom union audio_source . Sumber audio, yang berupa konten inline atau URI Google Cloud Storage. audio_source hanya ada berupa salah satu diantara berikut: |
|
content |
Byte data audio yang dienkode seperti yang ditentukan dalam |
uri |
URI yang mengarah ke file yang berisi byte data audio seperti yang ditentukan dalam |
RecognizeResponse
Pesan respons untuk metode Recognize
.
Kolom | |
---|---|
results[] |
Daftar hasil transkripsi berurutan yang sesuai dengan bagian audio yang berurutan. |
metadata |
Metadata tentang pengenalan. |
Pengenal
Pesan Pengenal. Menyimpan konfigurasi dan metadata pengenalan.
Kolom | |
---|---|
name |
Hanya output. Pengenal. Nama resource Pengenal. Format |
uid |
Hanya output. ID unik yang ditetapkan sistem untuk Pengenal. |
display_name |
Nama yang dapat ditetapkan pengguna dan dapat dibaca manusia untuk Pengenal. Harus terdiri dari 63 karakter atau kurang. |
model |
Opsional. Kolom ini sekarang tidak digunakan lagi. Pilih kolom Model yang akan digunakan untuk permintaan pengenalan. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik. Panduan untuk memilih model yang akan digunakan dapat ditemukan di Dokumentasi Model Transkripsi. Model yang didukung di setiap wilayah dapat ditemukan di Tabel Model yang Didukung. |
language_codes[] |
Opsional. Kolom ini sekarang tidak digunakan lagi. Pilih kolom Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Bahasa yang didukung untuk setiap model tercantum dalam Tabel Model yang Didukung. Jika bahasa tambahan disediakan, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi pada audio. Saat Anda membuat atau memperbarui Pengenal, nilai ini akan disimpan dalam bentuk BCP-47 yang dinormalkan. Misalnya, "en-us" disimpan sebagai "en-US". |
default_recognition_config |
Konfigurasi default yang akan digunakan untuk permintaan dengan Pengenal ini. Ini dapat ditimpa oleh konfigurasi inline di kolom |
annotations |
Memungkinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Kunci dan nilai masing-masing harus terdiri dari 63 karakter atau kurang. Maksimal 100 anotasi. |
state |
Hanya output. Status siklus proses Pengenal. |
create_time |
Hanya output. Waktu pembuatan. |
update_time |
Hanya output. Terakhir kali Pengenal ini diubah. |
delete_time |
Hanya output. Waktu saat Pengenal ini diminta untuk dihapus. |
expire_time |
Hanya output. Waktu Pengenal ini akan dihapus permanen. |
etag |
Hanya output. Checksum ini dihitung oleh server berdasarkan nilai {i>field<i} lain. Ini dapat dikirim pada saat permintaan pembaruan, pembatalan penghapusan, dan penghapusan untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
reconciling |
Hanya output. Apakah Pengenal ini sedang dalam proses diperbarui atau tidak. |
kms_key_name |
Hanya output. Nama kunci KMS yang digunakan untuk mengenkripsi Pengenal. Format yang diharapkan adalah |
kms_key_version_name |
Hanya output. Nama versi kunci KMS yang digunakan untuk mengenkripsi Pengenal. Format yang diharapkan adalah |
Negara bagian/Provinsi
Kumpulan status yang menentukan siklus proses Pengenal.
Enum | |
---|---|
STATE_UNSPECIFIED |
Nilai default. Nilai ini digunakan jika status dihilangkan. |
ACTIVE |
Pengenal aktif dan siap digunakan. |
DELETED |
Pengenal ini telah dihapus. |
SpeakerDiarizationConfig
Konfigurasi untuk mengaktifkan pemisahan pembicara.
Kolom | |
---|---|
min_speaker_count |
Wajib. Jumlah minimum pembicara dalam percakapan. Rentang ini memberi Anda lebih banyak fleksibilitas dengan memungkinkan sistem menentukan jumlah speaker yang tepat secara otomatis. Untuk memperbaiki jumlah speaker yang terdeteksi dalam audio, setel |
max_speaker_count |
Wajib. Jumlah maksimum pembicara dalam percakapan. Nilai yang valid adalah: 1-6. Harus >= |
SpeechAdaptation
Menyediakan "petunjuk" ke pengenal ucapan untuk mendukung kata dan frasa tertentu dalam hasil. PhraseSets dapat ditentukan sebagai resource inline, atau referensi ke resource PhraseSet yang ada.
Kolom | |
---|---|
phrase_sets[] |
Daftar PhraseSet inline atau referensi. |
custom_classes[] |
Daftar CustomClass inline. Resource CustomClass yang ada dapat direferensikan langsung di PhraseSet. |
AdaptationPhraseSet
PhraseSet pembiasan, yang dapat berupa string yang merujuk nama resource PhraseSets yang ada, atau definisi inline PhraseSet.
Kolom | |
---|---|
Kolom union
|
|
phrase_set |
Nama resource PhraseSet yang ada. Pengguna harus memiliki akses baca ke resource dan resource tidak boleh dihapus. |
inline_phrase_set |
PhraseSet yang ditentukan inline. |
SpeechRecognitionAlternative
Hipotesis alternatif (alias daftar n-terbaik).
Kolom | |
---|---|
transcript |
Teks transkrip yang mewakili kata-kata yang diucapkan pengguna. |
confidence |
Estimasi keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali tersebut benar. Kolom ini hanya disetel untuk alternatif teratas hasil non-streaming atau, dari hasil streaming dengan |
words[] |
Daftar informasi khusus kata untuk setiap kata yang dikenali. Jika |
SpeechRecognitionResult
Hasil pengenalan ucapan yang sesuai dengan sebagian audio.
Kolom | |
---|---|
alternatives[] |
Dapat berisi satu atau beberapa hipotesis pengenalan. Alternatif ini diurutkan dalam hal akurasi, dengan alternatif teratas (pertama) yang paling mungkin, sesuai peringkat oleh pengenal. |
channel_tag |
Untuk audio multi-saluran, ini adalah nomor saluran yang sesuai dengan hasil yang dikenali untuk audio dari saluran tersebut. Untuk |
result_end_offset |
Offset waktu dari akhir hasil ini relatif terhadap awal audio. |
language_code |
Hanya output. Tag bahasa BCP-47 dari bahasa dalam hasil ini. Kode bahasa ini terdeteksi memiliki kemungkinan yang paling besar untuk diucapkan dalam audio. |
SrtOutputFileFormatConfig
Jenis ini tidak memiliki kolom.
File subtitel berformat SubRip Text konfigurasi output.
StreamingRecognitionConfig
Menyediakan informasi konfigurasi untuk permintaan StreamingRecognize.
Kolom | |
---|---|
config |
Wajib. Fitur dan metadata audio yang akan digunakan untuk Pengenalan Ucapan Otomatis. Kolom ini yang dikombinasikan dengan kolom |
config_mask |
Daftar kolom di |
streaming_features |
Fitur pengenalan ucapan untuk memungkinkan permintaan pengenalan audio streaming tertentu. |
StreamingRecognitionFeatures
Fitur pengenalan yang tersedia khusus untuk permintaan pengenalan streaming.
Kolom | |
---|---|
enable_voice_activity_events |
Jika |
interim_results |
Apakah akan melakukan streaming hasil sementara ke klien atau tidak. Jika disetel ke benar (true), hasil sementara akan di-streaming ke klien. Jika tidak, hanya respons akhir yang akan di-streaming kembali. |
voice_activity_timeout |
Jika disetel, server akan menutup streaming secara otomatis setelah durasi yang ditentukan berlalu setelah peristiwa ucapan VOICE_ACTIVITY terakhir terkirim. Kolom |
VoiceActivityTimeout
Peristiwa dengan waktu tunggu yang dapat disetel untuk aktivitas suara.
Kolom | |
---|---|
speech_start_timeout |
Durasi untuk waktu tunggu streaming habis jika tidak ada ucapan yang dimulai. Jika hal ini disetel dan tidak ada ucapan yang terdeteksi dalam durasi ini pada awal streaming, server akan menutup streaming. |
speech_end_timeout |
Durasi untuk waktu tunggu streaming habis setelah ucapan berakhir. Jika setelan ini disetel dan tidak ada ucapan yang terdeteksi dalam durasi ini setelah ucapan terdeteksi, server akan menutup streaming. |
StreamingRecognitionResult
Hasil pengenalan ucapan streaming yang sesuai dengan sebagian audio yang sedang diproses.
Kolom | |
---|---|
alternatives[] |
Dapat berisi satu atau beberapa hipotesis pengenalan. Alternatif ini diurutkan dalam hal akurasi, dengan alternatif teratas (pertama) yang paling mungkin, sesuai peringkat oleh pengenal. |
is_final |
Jika |
stability |
Estimasi kemungkinan bahwa pengenal tidak akan mengubah tebakannya tentang hasil sementara ini. Rentang nilai dari 0.0 (benar-benar tidak stabil) hingga 1.0 (benar-benar stabil). Kolom ini hanya disediakan untuk hasil sementara ( |
result_end_offset |
Offset waktu dari akhir hasil ini relatif terhadap awal audio. |
channel_tag |
Untuk audio multi-saluran, ini adalah nomor saluran yang sesuai dengan hasil yang dikenali untuk audio dari saluran tersebut. Untuk |
language_code |
Hanya output. Tag bahasa BCP-47 dari bahasa dalam hasil ini. Kode bahasa ini terdeteksi memiliki kemungkinan yang paling besar untuk diucapkan dalam audio. |
StreamingRecognizeRequest
Pesan permintaan untuk metode StreamingRecognize
. Beberapa pesan StreamingRecognizeRequest
dikirim dalam satu panggilan.
Jika Recognizer
yang dirujuk oleh recognizer
berisi konfigurasi permintaan yang ditentukan sepenuhnya, aliran data hanya dapat berisi pesan dengan audio
yang ditetapkan saja.
Jika tidak, pesan pertama harus berisi pesan recognizer
dan streaming_config
yang bersama-sama sepenuhnya menentukan konfigurasi permintaan dan tidak boleh berisi audio
. Hanya audio
yang boleh ditetapkan untuk semua pesan berikutnya.
Kolom | |
---|---|
recognizer |
Wajib. Nama Pengenal yang digunakan selama pengenalan. Format yang diharapkan adalah |
Kolom union
|
|
streaming_config |
StreamingRecognitionConfig yang akan digunakan dalam upaya pengenalan ini. Jika diberikan, kode ini akan mengganti RecognitionConfig default yang disimpan di Pengenal. |
audio |
Byte audio inline yang akan dikenali. Ukuran maksimum kolom ini adalah 15 KB per permintaan. |
StreamingRecognizeResponse
StreamingRecognizeResponse
adalah satu-satunya pesan yang ditampilkan ke klien oleh StreamingRecognize
. Rangkaian nol atau beberapa pesan StreamingRecognizeResponse
akan di-streaming kembali ke klien. Jika tidak ada audio yang dapat dikenali, tidak ada pesan yang di-streaming kembali ke klien.
Berikut beberapa contoh StreamingRecognizeResponse
yang mungkin ditampilkan saat memproses audio:
results { alternatives { transcript: "tube" } stability: 0.01 }
results { alternatives { transcript: "to be a" } stability: 0.01 }
results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }
results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }
results { alternatives { transcript: " that's" } stability: 0.01 }
results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }
results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }
Catatan:
Hanya dua dari respons #4 dan #7 di atas yang berisi hasil akhir; yang ditunjukkan oleh
is_final: true
. Menggabungkan ini bersama-sama menghasilkan transkrip lengkap: "to be or not to be that is the question".Lainnya berisi
results
sementara. #3 dan #6 berisi duaresults
sementara: bagian pertama memiliki stabilitas tinggi dan cenderung tidak berubah; bagian kedua memiliki stabilitas rendah dan sangat mungkin berubah. Desainer UI mungkin memilih untuk hanya menampilkanresults
dengan stabilitas tinggi.Nilai
stability
danconfidence
spesifik yang ditampilkan di atas hanya untuk tujuan ilustrasi. Nilai sebenarnya dapat berbeda.Dalam setiap respons, hanya salah satu dari kolom berikut yang akan disetel:
error
,speech_event_type
, atau satu atau beberapa (berulang)results
.
Kolom | |
---|---|
results[] |
Daftar berulang ini berisi nol hasil atau lebih yang berkaitan dengan bagian berturut-turut dari audio yang sedang diproses. Kolom ini berisi nol atau satu hasil |
speech_event_type |
Menunjukkan jenis peristiwa ucapan. |
speech_event_offset |
Offset waktu antara awal audio dan emisi peristiwa. |
metadata |
Metadata tentang pengenalan. |
SpeechEventType
Menunjukkan jenis peristiwa ucapan.
Enum | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Tidak ada peristiwa ucapan yang ditentukan. |
END_OF_SINGLE_UTTERANCE |
Peristiwa ini menunjukkan bahwa server telah mendeteksi akhir ucapan ucapan pengguna dan tidak mengharapkan ucapan tambahan. Oleh karena itu, server tidak akan memproses audio tambahan dan akan menutup streaming dua arah gRPC. Peristiwa ini hanya dikirim jika ada penghentian paksa karena keheningan terdeteksi lebih awal. Acara ini hanya tersedia melalui latest_short model . |
SPEECH_ACTIVITY_BEGIN |
Peristiwa ini menunjukkan bahwa server telah mendeteksi awal aktivitas suara manusia di streaming. Peristiwa ini dapat ditampilkan beberapa kali jika ucapan dimulai dan berhenti berulang kali selama streaming. Peristiwa ini hanya dikirim jika voice_activity_events ditetapkan ke true. |
SPEECH_ACTIVITY_END |
Peristiwa ini menunjukkan bahwa server telah mendeteksi akhir aktivitas suara manusia di streaming. Peristiwa ini dapat ditampilkan beberapa kali jika ucapan dimulai dan berhenti berulang kali selama streaming. Peristiwa ini hanya dikirim jika voice_activity_events ditetapkan ke true. |
TranscriptNormalization
Konfigurasi normalisasi transkripsi. Gunakan normalisasi transkripsi untuk mengganti bagian transkrip secara otomatis dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial stabil (stabilitas > 0,8) dan transkrip akhir.
Kolom | |
---|---|
entries[] |
Daftar entri pengganti. Kami akan melakukan penggantian dengan satu entri pada satu waktu. Misalnya, entri kedua dalam ["cat" => "dog", "mountain cat" => "mountain dog"] tidak akan pernah diterapkan karena kita akan selalu memproses entri pertama sebelumnya. Maksimal 100 entri. |
Entri
Konfigurasi penggantian tunggal.
Kolom | |
---|---|
search |
Apa yang harus diganti. Panjang maksimal adalah 100 karakter. |
replace |
Apa yang harus diganti. Panjang maksimal adalah 100 karakter. |
case_sensitive |
Apakah penelusuran peka huruf besar/kecil. |
UndeleteCustomClassRequest
Pesan permintaan untuk metode UndeleteCustomClass
.
Kolom | |
---|---|
name |
Wajib. Nama CustomClass yang akan dibatalkan penghapusannya. Format: |
validate_only |
Jika ditetapkan, validasi permintaan dan pratinjau CustomClass yang tidak dihapus, tetapi jangan benar-benar membatalkan penghapusannya. |
etag |
Checksum ini dihitung oleh server berdasarkan nilai {i>field<i} lain. Ini dapat dikirim pada saat permintaan pembaruan, pembatalan penghapusan, dan penghapusan untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
UndeletePhraseSetRequest
Pesan permintaan untuk metode UndeletePhraseSet
.
Kolom | |
---|---|
name |
Wajib. Nama PhraseSet yang akan dibatalkan penghapusannya. Format: |
validate_only |
Jika ditetapkan, validasi permintaan dan pratinjau PhraseSet yang dibatalkan penghapusannya, tetapi jangan membatalkan penghapusannya. |
etag |
Checksum ini dihitung oleh server berdasarkan nilai {i>field<i} lain. Ini dapat dikirim pada saat permintaan pembaruan, pembatalan penghapusan, dan penghapusan untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
UndeleteRecognizerRequest
Pesan permintaan untuk metode UndeleteRecognizer
.
Kolom | |
---|---|
name |
Wajib. Nama Pengenal yang akan dibatalkan penghapusannya. Format: |
validate_only |
Jika disetel, validasi permintaan dan pratinjau Pengenal yang batal dihapus, tetapi jangan benar-benar membatalkan penghapusannya. |
etag |
Checksum ini dihitung oleh server berdasarkan nilai {i>field<i} lain. Ini dapat dikirim pada saat permintaan pembaruan, pembatalan penghapusan, dan penghapusan untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
UpdateConfigRequest
Pesan permintaan untuk metode UpdateConfig
.
Kolom | |
---|---|
config |
Wajib. Konfigurasi yang akan diperbarui. Kolom |
update_mask |
Daftar kolom yang akan diperbarui. |
UpdateCustomClassRequest
Pesan permintaan untuk metode UpdateCustomClass
.
Kolom | |
---|---|
custom_class |
Wajib. CustomClass yang akan diperbarui. Kolom |
update_mask |
Daftar kolom yang akan diperbarui. Jika kosong, semua kolom akan dipertimbangkan untuk update. |
validate_only |
Jika ditetapkan, validasi permintaan dan pratinjau CustomClass yang diupdate, tetapi jangan benar-benar memperbaruinya. |
UpdatePhraseSetRequest
Pesan permintaan untuk metode UpdatePhraseSet
.
Kolom | |
---|---|
phrase_set |
Wajib. PhraseSet untuk diupdate. Kolom |
update_mask |
Daftar kolom yang akan diperbarui. Jika kosong, semua kolom bernilai non-default akan dipertimbangkan untuk diperbarui. Gunakan |
validate_only |
Jika ditetapkan, validasi permintaan dan pratinjau PhraseSet yang diperbarui, tetapi jangan perbarui. |
UpdateRecognizerRequest
Pesan permintaan untuk metode UpdateRecognizer
.
Kolom | |
---|---|
recognizer |
Wajib. Pengenal yang akan diperbarui. Kolom |
update_mask |
Daftar kolom yang akan diperbarui. Jika kosong, semua kolom bernilai non-default akan dipertimbangkan untuk diperbarui. Gunakan |
validate_only |
Jika disetel, validasi permintaan dan pratinjau Pengenal yang diperbarui, tetapi jangan benar-benar memperbaruinya. |
VttOutputFileFormatConfig
Jenis ini tidak memiliki kolom.
Konfigurasi output untuk file subtitel berformat WebVTT.
WordInfo
Informasi khusus kata untuk kata yang dikenali.
Kolom | |
---|---|
start_offset |
Offset waktu relatif terhadap awal audio, dan sesuai dengan awal kata yang diucapkan. Kolom ini hanya ditetapkan jika |
end_offset |
Offset waktu relatif terhadap awal audio, dan sesuai dengan akhir kata yang diucapkan. Kolom ini hanya ditetapkan jika |
word |
Kata yang sesuai dengan kumpulan informasi ini. |
confidence |
Estimasi keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali tersebut benar. Kolom ini hanya disetel untuk alternatif teratas hasil non-streaming atau, dari hasil streaming dengan |
speaker_label |
Label yang berbeda ditetapkan untuk setiap speaker dalam audio. Bidang ini menentukan siapa dari pembicara tersebut yang terdeteksi telah mengucapkan kata ini. |