Indice
Speech
(interfaccia)AccessMetadata
(messaggio)AccessMetadata.ConstraintType
(enum)AutoDetectDecodingConfig
(messaggio)BatchRecognizeFileMetadata
(messaggio)BatchRecognizeFileResult
(messaggio)BatchRecognizeMetadata
(messaggio)BatchRecognizeRequest
(messaggio)BatchRecognizeRequest.ProcessingStrategy
(enum)BatchRecognizeResponse
(messaggio)BatchRecognizeResults
(messaggio)BatchRecognizeTranscriptionMetadata
(messaggio)CloudStorageResult
(messaggio)Config
(messaggio)CreateCustomClassRequest
(messaggio)CreatePhraseSetRequest
(messaggio)CreateRecognizerRequest
(messaggio)CustomClass
(messaggio)CustomClass.ClassItem
(messaggio)CustomClass.State
(enum)DeleteCustomClassRequest
(messaggio)DeletePhraseSetRequest
(messaggio)DeleteRecognizerRequest
(messaggio)ExplicitDecodingConfig
(messaggio)ExplicitDecodingConfig.AudioEncoding
(enum)GcsOutputConfig
(messaggio)GetConfigRequest
(messaggio)GetCustomClassRequest
(messaggio)GetPhraseSetRequest
(messaggio)GetRecognizerRequest
(messaggio)InlineOutputConfig
(messaggio)InlineResult
(messaggio)LanguageMetadata
(messaggio)ListCustomClassesRequest
(messaggio)ListCustomClassesResponse
(messaggio)ListPhraseSetsRequest
(messaggio)ListPhraseSetsResponse
(messaggio)ListRecognizersRequest
(messaggio)ListRecognizersResponse
(messaggio)LocationsMetadata
(messaggio)ModelFeature
(messaggio)ModelFeatures
(messaggio)ModelMetadata
(messaggio)NativeOutputFileFormatConfig
(messaggio)OperationMetadata
(messaggio)OutputFormatConfig
(messaggio)PhraseSet
(messaggio)PhraseSet.Phrase
(messaggio)PhraseSet.State
(enum)RecognitionConfig
(messaggio)RecognitionFeatures
(messaggio)RecognitionFeatures.MultiChannelMode
(enum)RecognitionOutputConfig
(messaggio)RecognitionResponseMetadata
(messaggio)RecognizeRequest
(messaggio)RecognizeResponse
(messaggio)Recognizer
(messaggio)Recognizer.State
(enum)SpeakerDiarizationConfig
(messaggio)SpeechAdaptation
(messaggio)SpeechAdaptation.AdaptationPhraseSet
(messaggio)SpeechRecognitionAlternative
(messaggio)SpeechRecognitionResult
(messaggio)SrtOutputFileFormatConfig
(messaggio)StreamingRecognitionConfig
(messaggio)StreamingRecognitionFeatures
(messaggio)StreamingRecognitionFeatures.VoiceActivityTimeout
(messaggio)StreamingRecognitionResult
(messaggio)StreamingRecognizeRequest
(messaggio)StreamingRecognizeResponse
(messaggio)StreamingRecognizeResponse.SpeechEventType
(enum)TranscriptNormalization
(messaggio)TranscriptNormalization.Entry
(messaggio)UndeleteCustomClassRequest
(messaggio)UndeletePhraseSetRequest
(messaggio)UndeleteRecognizerRequest
(messaggio)UpdateConfigRequest
(messaggio)UpdateCustomClassRequest
(messaggio)UpdatePhraseSetRequest
(messaggio)UpdateRecognizerRequest
(messaggio)VttOutputFileFormatConfig
(messaggio)WordInfo
(messaggio)
Parlato
Abilita la trascrizione vocale e la gestione delle risorse.
BatchRecognize |
---|
Esegue il riconoscimento vocale asincrono in batch: invia una richiesta con N file audio e ricevi un'operazione a lunga esecuzione che può essere sottoposta a polling per vedere quando le trascrizioni sono terminate.
|
CreateCustomClass |
---|
Crea un
|
CreatePhraseSet |
---|
Crea un
|
CreateRecognizer |
---|
Crea un
|
DeleteCustomClass |
---|
Elimina
|
DeletePhraseSet |
---|
Elimina
|
DeleteRecognizer |
---|
Elimina
|
GetConfig |
---|
Restituisce il valore
|
GetCustomClass |
---|
Restituisce il valore
|
GetPhraseSet |
---|
Restituisce il valore
|
GetRecognizer |
---|
Restituisce il valore
|
ListCustomClasses |
---|
Elenca le classi personalizzate.
|
ListPhraseSets |
---|
Elenca i PhraseSet.
|
ListRecognizers |
---|
Elenca i riconoscimenti.
|
Riconoscimento |
---|
Esegue il riconoscimento vocale sincrono: ricevi i risultati dopo che tutto l'audio è stato inviato ed elaborato.
|
StreamingRecognize |
---|
Esegue il riconoscimento vocale in streaming bidirezionale: ricevi risultati durante l'invio dell'audio. Questo metodo è disponibile solo tramite l'API gRPC (non REST).
|
UndeleteCustomClass |
---|
Annulla l'eliminazione di
|
UndeletePhraseSet |
---|
Annulla l'eliminazione di
|
UndeleteRecognizer |
---|
Annulla l'eliminazione di
|
UpdateConfig |
---|
Aggiorna il
|
UpdateCustomClass |
---|
Aggiorna il
|
UpdatePhraseSet |
---|
Aggiorna il
|
UpdateRecognizer |
---|
Aggiorna il
|
AccessMetadata
I metadati di accesso per una determinata regione. Questa opzione può essere applicata se il criterio dell'organizzazione per il progetto specificato non consente una determinata regione.
Campi | |
---|---|
constraint_type |
Descrive i diversi tipi di vincoli che vengono applicati. |
ConstraintType
Descrive i diversi tipi di vincoli che possono essere applicati a una regione.
Enum | |
---|---|
CONSTRAINT_TYPE_UNSPECIFIED |
Vincolo non specificato applicato. |
RESOURCE_LOCATIONS_ORG_POLICY_CREATE_CONSTRAINT |
Il criterio dell'organizzazione del progetto non consente la regione specificata. |
AutoDetectDecodingConfig
Questo tipo non contiene campi.
Parametri di decodifica rilevati automaticamente. Supportate per le seguenti codifiche:
WAV_LINEAR16: campioni PCM small-endian con firma a 16 bit in un container WAV.
WAV_MULAW: campioni di mulaw combinati a 8 bit in un container WAV.
WAV_ALAW: campioni alaw compandati a 8 bit in un container WAV.
RFC4867_5_AMR: frame AMR con intestazione rfc4867.5.
RFC4867_5_AMRWB: frame AMR-WB con intestazione rfc4867.5.
FLAC: frame FLAC nel formato container "FLAC nativo".
MP3: frame audio MPEG con metadati ID3 facoltativi (ignorati).
OGG_OPUS: frame audio Opus in un container Ogg.
WEBM_OPUS: frame audio Opus in un contenitore WebM.
MP4_AAC: frame audio AAC in un contenitore MP4.
M4A_AAC: fotogrammi audio AAC in un container M4A.
MOV_AAC: frame audio AAC in un container MOV.
BatchRecognizeFileMetadata
Metadati relativi a un singolo file in un batch per BatchRecognition.
Campi | |
---|---|
config |
Funzionalità e metadati audio da utilizzare per il riconoscimento vocale automatico. Questo campo, in combinazione con il campo |
config_mask |
L'elenco di campi in |
Campo di unione audio_source . L'origine audio, che è un URI di Google Cloud Storage. audio_source può essere solo uno dei seguenti: |
|
uri |
URI Cloud Storage del file audio. |
BatchRecognizeFileResult
Risultati finali per un singolo file.
Campi | |
---|---|
error |
Se ne è stato rilevato uno. |
metadata |
|
uri |
Ritirato. Usa invece il criterio |
transcript |
Ritirato. Usa invece il criterio |
Campo di unione
|
|
cloud_storage_result |
Risultati del riconoscimento scritti in Cloud Storage. Questo campo viene compilato solo quando il criterio |
inline_result |
Risultati del riconoscimento. Questo campo viene compilato solo quando il criterio |
BatchRecognizeMetadata
Metadati dell'operazione per BatchRecognize
.
Campi | |
---|---|
transcription_metadata |
Mappa dal nome file fornito ai metadati della trascrizione per il file. |
BatchRecognizeRequest
Messaggio di richiesta per il metodo BatchRecognize
.
Campi | |
---|---|
recognizer |
Obbligatorio. Il nome del riconoscimento da utilizzare durante il riconoscimento. Il formato previsto è |
config |
Funzionalità e metadati audio da utilizzare per il riconoscimento vocale automatico. Questo campo, in combinazione con il campo |
config_mask |
L'elenco di campi in |
files[] |
File audio con metadati di file per ASR. Il numero massimo di file che è possibile specificare è 5. |
recognition_output_config |
Opzioni di configurazione per indicare dove eseguire l'output delle trascrizioni di ciascun file. |
processing_strategy |
Strategia di elaborazione da utilizzare per questa richiesta. |
ProcessingStrategy
Possibili strategie di elaborazione per le richieste batch.
Enum | |
---|---|
PROCESSING_STRATEGY_UNSPECIFIED |
Valore predefinito per la strategia di elaborazione. La richiesta viene elaborata non appena viene ricevuta. |
DYNAMIC_BATCHING |
Se questa opzione è selezionata, la richiesta viene elaborata durante periodi di utilizzo inferiori per ottenere uno sconto sul prezzo. La richiesta viene soddisfatta entro 24 ore. |
BatchRecognizeResponse
Messaggio di risposta per BatchRecognize
pacchettizzato in un Operation
a lunga esecuzione.
Campi | |
---|---|
results |
Mappa dal nome file al risultato finale per quel file. |
total_billed_duration |
Se disponibili, vengono fatturati i secondi audio per la richiesta corrispondente. |
BatchRecognizeResults
Tipo di output per le trascrizioni Cloud Storage di BatchRiconoscimento. Anche se questo protocollo non viene restituito da nessuna parte in questa API, le trascrizioni di Cloud Storage saranno basate sul protocollo serializzato e dovrebbero essere analizzate come tali.
Campi | |
---|---|
results[] |
Elenco sequenziale dei risultati della trascrizione corrispondenti a parti sequenziali di audio. |
metadata |
I metadati sul riconoscimento. |
BatchRecognizeTranscriptionMetadata
Metadati sulla trascrizione di un singolo file (ad esempio, la percentuale di avanzamento).
Campi | |
---|---|
progress_percent |
La percentuale del file trascritta finora. |
error |
Se ne è stato rilevato uno. |
uri |
L'URI Cloud Storage in cui verranno scritti i risultati del riconoscimento. |
CloudStorageResult
I risultati finali sono scritti in Cloud Storage.
Campi | |
---|---|
uri |
L'URI Cloud Storage in cui sono stati scritti i risultati del riconoscimento. |
vtt_format_uri |
L'URI Cloud Storage a cui sono stati scritti i risultati del riconoscimento come didascalie in formato VTT. Il campo viene compilato solo quando viene richiesto l'output |
srt_format_uri |
L'URI Cloud Storage a cui sono stati scritti i risultati del riconoscimento come didascalie in formato SRT. Il campo viene compilato solo quando viene richiesto l'output |
Configurazione
Messaggio che rappresenta la configurazione dell'API Speech-to-Text. È inclusa una chiave KMS facoltativa con cui verranno criptati i dati in arrivo.
Campi | |
---|---|
name |
Solo output. Identificatore. Il nome della risorsa di configurazione. Esiste esattamente una risorsa di configurazione per progetto per località. Il formato previsto è |
kms_key_name |
Facoltativo. Un nome chiave KMS facoltativo che, se presente, verrà utilizzato per criptare le risorse at-rest di Speech-to-Text. L'aggiornamento di questa chiave non cripterà le risorse esistenti utilizzando questa chiave; solo le nuove risorse verranno criptate usando questa chiave. Il formato previsto è |
update_time |
Solo output. L'ultima volta che questa risorsa è stata modificata. |
CreateCustomClassRequest
Messaggio di richiesta per il metodo CreateCustomClass
.
Campi | |
---|---|
custom_class |
Obbligatorio. Il valore CustomClass da creare. |
validate_only |
Se impostato, convalida la richiesta e visualizza l'anteprima del CustomClass, ma non crearlo effettivamente. |
custom_class_id |
L'ID da utilizzare per CustomClass, che diventerà il componente finale del nome della risorsa CustomClass. Questo valore deve contenere da 4 a 63 caratteri, mentre i caratteri validi sono /[a-z][0-9]-/. |
parent |
Obbligatorio. Il progetto e la località in cui verrà creato il CustomClass. Il formato previsto è |
CreatePhraseSetRequest
Messaggio di richiesta per il metodo CreatePhraseSet
.
Campi | |
---|---|
phrase_set |
Obbligatorio. Il set di frasi da creare. |
validate_only |
Se impostato, convalida la richiesta e visualizza l'anteprima del PhraseSet, ma non crearlo effettivamente. |
phrase_set_id |
L'ID da utilizzare per PhraseSet, che diventerà il componente finale del nome della risorsa PhraseSet. Questo valore deve contenere da 4 a 63 caratteri, mentre i caratteri validi sono /[a-z][0-9]-/. |
parent |
Obbligatorio. Il progetto e la località in cui verrà creato il PhraseSet. Il formato previsto è |
CreateRecognizerRequest
Messaggio di richiesta per il metodo CreateRecognizer
.
Campi | |
---|---|
recognizer |
Obbligatorio. Il riconoscimento per creare. |
validate_only |
Se impostato, convalida la richiesta e visualizza l'anteprima del riconoscimento, ma non crearlo effettivamente. |
recognizer_id |
L'ID da utilizzare per il riconoscimento, che diventerà il componente finale del nome della risorsa del riconoscimento. Questo valore deve contenere da 4 a 63 caratteri, mentre i caratteri validi sono /[a-z][0-9]-/. |
parent |
Obbligatorio. Il progetto e la località in cui verrà creato il riconoscimento. Il formato previsto è |
CustomClass
CustomClass per la differenziazione nel riconoscimento vocale. Utilizzato per definire un insieme di parole o frasi che rappresenta un concetto o un tema comune che potrebbe essere visualizzato nell'audio, ad esempio un elenco di nomi di navi passeggeri.
Campi | |
---|---|
name |
Solo output. Identificatore. Il nome della risorsa del CustomClass. Formato: |
uid |
Solo output. Identificatore univoco assegnato dal sistema per CustomClass. |
display_name |
Facoltativo. Nome leggibile e configurabile dall'utente per CustomClass. Deve avere una lunghezza massima di 63 caratteri. |
items[] |
Una raccolta di elementi del corso. |
state |
Solo output. Lo stato del ciclo di vita di CustomClass. |
create_time |
Solo output. Data/ora creazione. |
update_time |
Solo output. L'ultima volta che questa risorsa è stata modificata. |
delete_time |
Solo output. L'ora in cui è stata richiesta l'eliminazione della risorsa. |
expire_time |
Solo output. L'ora in cui la risorsa verrà eliminata definitivamente. |
annotations |
Facoltativo. Consente agli utenti di archiviare piccole quantità di dati arbitrari. Sia la chiave che il valore devono contenere al massimo 63 caratteri ciascuno. Massimo 100 annotazioni. |
etag |
Solo output. Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere. |
reconciling |
Solo output. Se questo CustomClass è in fase di aggiornamento o meno. |
kms_key_name |
Solo output. Il nome della chiave KMS con cui è criptato CustomClass. Il formato previsto è |
kms_key_version_name |
Solo output. Il nome della versione della chiave KMS con cui è criptata la classe CustomClass. Il formato previsto è |
ClassItem
Un elemento del corso.
Campi | |
---|---|
value |
Il valore dell'elemento del corso. |
Stato
Insieme di stati che definiscono il ciclo di vita di un CustomClass.
Enum | |
---|---|
STATE_UNSPECIFIED |
Stato non specificato. Questo viene usato/utile solo per distinguere i valori non impostati. |
ACTIVE |
Lo stato normale e attivo. |
DELETED |
Questa classe CustomClass è stata eliminata. |
DeleteCustomClassRequest
Messaggio di richiesta per il metodo DeleteCustomClass
.
Campi | |
---|---|
name |
Obbligatorio. Il nome del CustomClass da eliminare. Formato: |
validate_only |
Se impostato, convalida la richiesta e visualizza l'anteprima del CustomClass eliminato, ma non eliminarlo. |
allow_missing |
Se il valore è impostato su true e la classe CustomClass non viene trovata, la richiesta andrà a buon fine e sarà inutilizzabile (in questo caso non viene registrata alcuna operazione). |
etag |
Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere. |
DeletePhraseSetRequest
Messaggio di richiesta per il metodo DeletePhraseSet
.
Campi | |
---|---|
name |
Obbligatorio. Il nome del PhraseSet da eliminare. Formato: |
validate_only |
Se impostato, convalida la richiesta e visualizza l'anteprima del PhraseSet eliminato, ma non eliminarlo. |
allow_missing |
Se il criterio viene impostato su true e il PhraseSet non viene trovato, la richiesta andrà a buon fine e sarà innocua (in questo caso non viene registrata alcuna operazione). |
etag |
Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere. |
DeleteRecognizerRequest
Messaggio di richiesta per il metodo DeleteRecognizer
.
Campi | |
---|---|
name |
Obbligatorio. Il nome del riconoscimento da eliminare. Formato: |
validate_only |
Se impostato, convalida la richiesta e visualizza l'anteprima del riconoscimento eliminato, ma non eliminarlo. |
allow_missing |
Se il valore è impostato su true e il riconoscimento non viene trovato, la richiesta andrà a buon fine e sarà inutilizzabile (in questo caso non viene registrata alcuna operazione). |
etag |
Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere. |
ExplicitDecodingConfig
Parametri di decodifica specificati esplicitamente.
Campi | |
---|---|
encoding |
Obbligatorio. Codifica dei dati audio inviati per il riconoscimento. |
sample_rate_hertz |
Frequenza di campionamento in Hertz dei dati audio inviati per il riconoscimento. I valori validi sono: 8000-48000. 16.000 è ottimale. Per ottenere risultati ottimali, imposta la frequenza di campionamento della sorgente audio su 16000 Hz. Se non è possibile, utilizza la frequenza di campionamento nativa della sorgente audio (anziché il ricampionamento). Supportate per le seguenti codifiche:
|
audio_channel_count |
Numero di canali presenti nei dati audio inviati per il riconoscimento. Supportate per le seguenti codifiche:
Il valore massimo consentito è 8. |
AudioEncoding
Codifiche dei dati audio supportate.
Enum | |
---|---|
AUDIO_ENCODING_UNSPECIFIED |
Valore predefinito. Questo valore non è utilizzato. |
LINEAR16 |
Campioni PCM small-endian firmati a 16 bit senza intestazioni. |
MULAW |
Campioni di mulaw complessi a 8 bit senza intestazioni. |
ALAW |
Campioni alaw compandati a 8 bit senza intestazioni. |
GcsOutputConfig
Configurazioni di output per Cloud Storage.
Campi | |
---|---|
uri |
Il prefisso dell'URI Cloud Storage con cui verranno scritti i risultati del riconoscimento. |
GetConfigRequest
Messaggio di richiesta per il metodo GetConfig
.
Campi | |
---|---|
name |
Obbligatorio. Il nome della configurazione da recuperare. Esiste esattamente una risorsa di configurazione per progetto per località. Il formato previsto è |
GetCustomClassRequest
Messaggio di richiesta per il metodo GetCustomClass
.
Campi | |
---|---|
name |
Obbligatorio. Il nome del CustomClass da recuperare. Il formato previsto è |
GetPhraseSetRequest
Messaggio di richiesta per il metodo GetPhraseSet
.
Campi | |
---|---|
name |
Obbligatorio. Il nome del PhraseSet da recuperare. Il formato previsto è |
GetRecognizerRequest
Messaggio di richiesta per il metodo GetRecognizer
.
Campi | |
---|---|
name |
Obbligatorio. Il nome del riconoscimento da recuperare. Il formato previsto è |
InlineOutputConfig
Questo tipo non contiene campi.
Configurazioni di output per la risposta in linea.
InlineResult
I risultati finali sono stati restituiti in linea nella risposta del riconoscimento.
Campi | |
---|---|
transcript |
La trascrizione del file audio. |
vtt_captions |
La trascrizione del file audio come sottotitoli codificati in formato VTT. Il campo viene compilato solo quando viene richiesto l'output |
srt_captions |
La trascrizione del file audio come sottotitoli codificati in formato SRT. Il campo viene compilato solo quando viene richiesto l'output |
LanguageMetadata
I metadati sulle impostazioni internazionali disponibili in una determinata regione. Al momento si tratta solo dei modelli disponibili per ogni lingua
Campi | |
---|---|
models |
Mappa di impostazioni internazionali (codice lingua) -> modelli |
ListCustomClassesRequest
Messaggio di richiesta per il metodo ListCustomClasses
.
Campi | |
---|---|
parent |
Obbligatorio. Il progetto e la località delle risorse CustomClass da elencare. Il formato previsto è |
page_size |
Numero di risultati per richiesta. Un valore page_size valido va da 0 a 100 inclusi. Se page_size è pari a zero o non è specificato, verrà scelta una dimensione pagina pari a 5. Se le dimensioni della pagina superano 100, verrà ridotta a 100. Tieni presente che una chiamata potrebbe restituire un numero di risultati inferiore alle dimensioni della pagina richieste. |
page_token |
Un token di pagina, ricevuto da una chiamata Durante l'impaginazione, tutti gli altri parametri forniti a |
show_deleted |
Indica se mostrare o meno le risorse che sono state eliminate. |
ListCustomClassesResponse
Messaggio di risposta per il metodo ListCustomClasses
.
Campi | |
---|---|
custom_classes[] |
L'elenco di CustomClass richieste. |
next_page_token |
Un token, che può essere inviato come |
ListPhraseSetsRequest
Messaggio di richiesta per il metodo ListPhraseSets
.
Campi | |
---|---|
parent |
Obbligatorio. Il progetto e la località delle risorse PhraseSet da elencare. Il formato previsto è |
page_size |
Il numero massimo di PhraseSet da restituire. Il servizio potrebbe restituire un numero inferiore a questo valore. Se non specificati, verranno restituiti al massimo 5 PhraseSet. Il valore massimo è 100; i valori superiori a 100 verranno forzati a 100. |
page_token |
Un token di pagina, ricevuto da una chiamata Durante l'impaginazione, tutti gli altri parametri forniti a |
show_deleted |
Indica se mostrare o meno le risorse che sono state eliminate. |
ListPhraseSetsResponse
Messaggio di risposta per il metodo ListPhraseSets
.
Campi | |
---|---|
phrase_sets[] |
L'elenco di PhraseSet richiesti. |
next_page_token |
Un token, che può essere inviato come |
ListRecognizersRequest
Messaggio di richiesta per il metodo ListRecognizers
.
Campi | |
---|---|
parent |
Obbligatorio. Il progetto e la posizione dei Riconoscitori da elencare. Il formato previsto è |
page_size |
Il numero massimo di riconoscimenti da restituire. Il servizio potrebbe restituire un numero inferiore a questo valore. Se non specificati, verranno restituiti al massimo 5 riconoscimenti. Il valore massimo è 100; i valori superiori a 100 verranno forzati a 100. |
page_token |
Un token di pagina, ricevuto da una chiamata Durante l'impaginazione, tutti gli altri parametri forniti a |
show_deleted |
Indica se mostrare o meno le risorse che sono state eliminate. |
ListRecognizersResponse
Messaggio di risposta per il metodo ListRecognizers
.
Campi | |
---|---|
recognizers[] |
L'elenco dei riconoscimenti richiesti. |
next_page_token |
Un token, che può essere inviato come |
LocationsMetadata
Metadati principali per l'API Places per STT V2. Attualmente, si tratta solo dei metadati relativi a impostazioni internazionali, modelli e caratteristiche
Campi | |
---|---|
languages |
Informazioni su impostazioni internazionali, modelli e caratteristiche disponibili rappresentati nella struttura gerarchica delle impostazioni internazionali -> modelli -> caratteristiche |
access_metadata |
Informazioni sui metadati di accesso per la regione e il progetto specificato. |
ModelFeature
Rappresenta una caratteristica singola di un modello. Se la funzionalità è recognizer
, il valore release_state della funzionalità rappresenta il valore release_state del modello.
Campi | |
---|---|
feature |
Il nome dell'elemento (nota: la funzionalità può essere |
release_state |
Lo stato della release della funzionalità |
ModelFeatures
Rappresenta l'insieme di caratteristiche appartenenti a un modello
Campi | |
---|---|
model_feature[] |
Campo ripetuto che contiene tutte le caratteristiche del modello |
ModelMetadata
I metadati relativi ai modelli in una determinata regione per un'impostazione internazionale specifica. Attualmente queste sono solo le caratteristiche del modello
Campi | |
---|---|
model_features |
Mappa del nome del modello -> caratteristiche del modello |
NativeOutputFileFormatConfig
Questo tipo non contiene campi.
Configurazioni di output per i proto BatchRecognizeResults
serializzati.
OperationMetadata
Rappresenta i metadati di un'operazione a lunga esecuzione.
Campi | |
---|---|
create_time |
L'ora di creazione dell'operazione. |
update_time |
L'ora dell'ultimo aggiornamento dell'operazione. |
resource |
Il percorso della risorsa per la destinazione dell'operazione. |
method |
Il metodo che ha attivato l'operazione. |
kms_key_name |
Il nome della chiave KMS con cui sono criptati i contenuti dell'operazione. Il formato previsto è |
kms_key_version_name |
Il nome della versione della chiave KMS con cui vengono criptati i contenuti dell'operazione. Il formato previsto è |
progress_percent |
La percentuale di avanzamento dell'operazione. I valori possono essere compresi tra 0 e 100. Se il valore è 100, l'operazione è terminata. |
Campo di unione request . La richiesta che ha dato vita all'operazione. request può essere solo uno dei seguenti: |
|
batch_recognize_request |
Il parametro BatchRecognizeRequest che ha dato vita all'operazione. |
create_recognizer_request |
La richiesta CreateRecognizerRequest che ha dato vita all'operazione. |
update_recognizer_request |
L'oggetto UpdateRecognizerRequest che ha dato vita all'operazione. |
delete_recognizer_request |
L'elemento DeleteRecognizerRequest che ha dato vita all'operazione. |
undelete_recognizer_request |
L'UndeleteRecognizerRequest che ha dato vita all'operazione. |
create_custom_class_request |
La richiesta CreateCustomClassRequest che ha dato vita all'operazione. |
update_custom_class_request |
L'oggetto UpdateCustomClassRequest che ha dato vita all'operazione. |
delete_custom_class_request |
L'elemento DeleteCustomClassRequest che ha dato vita all'operazione. |
undelete_custom_class_request |
L'elemento UndeleteCustomClassRequest che ha dato vita all'operazione. |
create_phrase_set_request |
L'elemento CreatePhraseSetRequest che ha dato vita all'operazione. |
update_phrase_set_request |
La sezione UpdatePhraseSetRequest che ha dato vita all'operazione. |
delete_phrase_set_request |
Il valore DeletePhraseSetRequest che ha dato vita all'operazione. |
undelete_phrase_set_request |
L'elemento UndeletePhraseSetRequest che ha dato vita all'operazione. |
update_config_request |
La richiesta UpdateConfigRequest che ha dato vita all'operazione. |
Campo di unione metadata . Metadati specifici per RPC. metadata può essere solo uno dei seguenti: |
|
batch_recognize_metadata |
Metadati specifici del metodo BatchRecognition. |
OutputFormatConfig
Configurazione per il formato dei risultati archiviati in output
.
Campi | |
---|---|
native |
Configurazione per il formato di output nativo. Se questo campo è impostato o se non è impostato nessun altro campo di formato di output, le trascrizioni verranno scritte nel sink nel formato nativo. |
vtt |
Configurazione per il formato di output VTT. Se questo campo viene impostato, le trascrizioni verranno scritte nel sink nel formato VTT. |
srt |
Configurazione per il formato di output SRT. Se questo campo viene impostato, le trascrizioni verranno scritte nel sink in formato SRT. |
PhraseSet
frase impostata per la differenziazione nel riconoscimento vocale. Un PhraseSet viene utilizzato per fornire "suggerimenti" al riconoscimento vocale per favorire parole e frasi specifiche nei risultati.
Campi | |
---|---|
name |
Solo output. Identificatore. Il nome della risorsa del PhraseSet. Formato: |
uid |
Solo output. Identificatore univoco assegnato dal sistema per PhraseSet. |
phrases[] |
Un elenco di parole e frasi. |
boost |
Suggerimento: Un valore positivo aumenta la probabilità che una frase specifica venga riconosciuta rispetto ad altre frasi simili. Più alta è la spinta, maggiore è anche la possibilità di ottenere un riconoscimento di falsi positivi. I valori |
display_name |
Nome leggibile e configurabile dall'utente per PhraseSet. Deve avere una lunghezza massima di 63 caratteri. |
state |
Solo output. Lo stato del ciclo di vita di PhraseSet. |
create_time |
Solo output. Data/ora creazione. |
update_time |
Solo output. L'ultima volta che questa risorsa è stata modificata. |
delete_time |
Solo output. L'ora in cui è stata richiesta l'eliminazione della risorsa. |
expire_time |
Solo output. L'ora in cui la risorsa verrà eliminata definitivamente. |
annotations |
Consente agli utenti di archiviare piccole quantità di dati arbitrari. Sia la chiave che il valore devono contenere al massimo 63 caratteri ciascuno. Massimo 100 annotazioni. |
etag |
Solo output. Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere. |
reconciling |
Solo output. Indica se il PhraseSet è in fase di aggiornamento. |
kms_key_name |
Solo output. Il nome della chiave KMS con cui è criptato il PhraseSet. Il formato previsto è |
kms_key_version_name |
Solo output. Il nome della versione della chiave KMS con cui è criptato il set PhraseSet. Il formato previsto è |
Frase
Una frase contiene parole e "suggerimenti" per consentire al riconoscimento vocale di riconoscerli con maggiore probabilità. Questa funzionalità può essere utilizzata per migliorare l'accuratezza di parole e frasi specifiche, ad esempio se l'utente generalmente pronuncia comandi specifici. In questo modo puoi anche aggiungere altre parole al vocabolario del riconoscimento.
Le voci di elenco possono anche includere riferimenti CustomClass contenenti gruppi di parole che rappresentano concetti comuni che si verificano nel linguaggio naturale.
Campi | |
---|---|
value |
La frase stessa. |
boost |
Suggerimento: Esegue l'override del booster impostato al livello della frase. Un valore positivo aumenta la probabilità che una frase specifica venga riconosciuta rispetto ad altre frasi simili. Più alta è la spinta, maggiore è anche la possibilità di ottenere un riconoscimento di falsi positivi. Valori di boost negativi corrispondono ad anti-biasing. L'anti-bias non è abilitato, quindi i valori di boost negativi restituiranno un errore. I valori di boost devono essere compresi tra 0 e 20. I valori al di fuori di questo intervallo restituiranno un errore. Ti consigliamo di utilizzare un approccio di ricerca binaria per trovare il valore ottimale per il tuo caso d'uso e di aggiungere frasi sia con che senza booster alle tue richieste. |
Stato
Insieme di stati che definiscono il ciclo di vita di un PhraseSet.
Enum | |
---|---|
STATE_UNSPECIFIED |
Stato non specificato. Questo viene usato/utile solo per distinguere i valori non impostati. |
ACTIVE |
Lo stato normale e attivo. |
DELETED |
Questo PhraseSet è stato eliminato. |
RecognitionConfig
Fornisce al riconoscimento informazioni come elaborare la richiesta di riconoscimento.
Campi | |
---|---|
model |
Facoltativo. Quale modello utilizzare per le richieste di riconoscimento. Seleziona il modello più adatto al tuo dominio per ottenere risultati ottimali. Le indicazioni per la scelta del modello da utilizzare sono disponibili nella documentazione sui modelli di trascrizione, mentre i modelli supportati in ogni regione sono disponibili nella tabella dei modelli supportati. |
language_codes[] |
Facoltativo. La lingua dell'audio fornito sotto forma di tag lingua BCP-47. I tag della lingua sono normalizzati in BCP-47 prima di essere utilizzati, ad esempio "en-us" diventa "en-US". Le lingue supportate per ogni modello sono elencate nella Tabella dei modelli supportati. Se vengono fornite altre lingue, il risultato del riconoscimento conterrà il riconoscimento nella lingua più probabile rilevata. Il risultato del riconoscimento includerà il tag della lingua rilevata nell'audio. |
features |
Funzionalità di riconoscimento vocale da attivare. |
adaptation |
Contesto di adattamento vocale che valuta le previsioni del riconoscimento per parole e frasi specifiche. |
transcript_normalization |
Facoltativo. Usa la normalizzazione della trascrizione per sostituire automaticamente parti della trascrizione con frasi di tua scelta. Per StreamingRiconoscimento, questa normalizzazione si applica solo alle trascrizioni parziali stabili (stabilità > 0,8) e alle trascrizioni finali. |
Campo di unione decoding_config . Decodifica dei parametri per l'audio inviato per il riconoscimento. decoding_config può essere solo uno dei seguenti: |
|
auto_decoding_config |
Rileva automaticamente i parametri di decodifica. Preferito per i formati supportati. |
explicit_decoding_config |
Parametri di decodifica specificati esplicitamente. Obbligatorio se utilizzi un audio PCM senza header (linear16, mulaw, alaw). |
RecognitionFeatures
Funzioni di riconoscimento disponibili.
Campi | |
---|---|
profanity_filter |
Se viene impostato su |
enable_word_time_offsets |
Se |
enable_word_confidence |
Se |
enable_automatic_punctuation |
Se |
enable_spoken_punctuation |
Il comportamento della punteggiatura pronunciata per la chiamata. Se |
enable_spoken_emojis |
Il comportamento delle emoji pronunciate per la chiamata. Se |
multi_channel_mode |
Modalità per riconoscere l'audio multicanale. |
diarization_config |
Configurazione per abilitare la diarizzazione degli speaker e impostare parametri aggiuntivi per renderla più adatta alla tua applicazione. Quando questa opzione è abilitata, inviamo tutte le parole dall'inizio dell'audio per l'alternativa superiore in ogni risposta STREAMING consecutive. Ciò viene fatto per migliorare i nostri tag speaker man mano che i nostri modelli imparano a identificare i relatori nella conversazione nel corso del tempo. Per le richieste non in streaming, i risultati della diarizzazione saranno forniti solo nell'alternativa superiore di FINAL SpeechRecognitionResult. |
max_alternatives |
Numero massimo di ipotesi di riconoscimento da restituire. Il server potrebbe restituire meno di |
MultiChannelMode
Opzioni per riconoscere l'audio multicanale.
Enum | |
---|---|
MULTI_CHANNEL_MODE_UNSPECIFIED |
Valore predefinito per la modalità multicanale. Se l'audio contiene più canali, verrà trascritto solo il primo canale; gli altri verranno ignorati. |
SEPARATE_RECOGNITION_PER_CHANNEL |
Se questa opzione è selezionata, ogni canale nell'audio fornito viene trascritto in modo indipendente. Questa opzione non può essere selezionata se il valore model selezionato è latest_short . |
RecognitionOutputConfig
Opzioni di configurazione per gli output del riconoscimento.
Campi | |
---|---|
output_format_config |
Facoltativo. Configurazione per il formato dei risultati archiviati in |
Campo di unione
|
|
gcs_output_config |
Se questo messaggio viene compilato, i risultati del riconoscimento vengono scritti nell'URI di Google Cloud Storage fornito. |
inline_response_config |
Se questo messaggio viene compilato, i risultati del riconoscimento vengono forniti nel messaggio |
RecognitionResponseMetadata
Metadati relativi alla richiesta e alla risposta di riconoscimento.
Campi | |
---|---|
total_billed_duration |
Se disponibili, vengono fatturati i secondi audio per la richiesta corrispondente. |
RecognizeRequest
Messaggio di richiesta per il metodo Recognize
. È necessario specificare content
o uri
. Se fornisci entrambi o nessuno dei due resi INVALID_ARGUMENT
, Vedi Limiti per i contenuti.
Campi | |
---|---|
recognizer |
Obbligatorio. Il nome del riconoscimento da utilizzare durante il riconoscimento. Il formato previsto è |
config |
Funzionalità e metadati audio da utilizzare per il riconoscimento vocale automatico. Questo campo, in combinazione con il campo |
config_mask |
L'elenco di campi in |
Campo di unione audio_source . L'origine audio, che è un contenuto in linea o un URI di Google Cloud Storage. audio_source può essere solo uno dei seguenti: |
|
content |
I byte dei dati audio codificati come specificato in |
uri |
URI che rimanda a un file contenente byte di dati audio come specificato in |
RecognizeResponse
Messaggio di risposta per il metodo Recognize
.
Campi | |
---|---|
results[] |
Elenco sequenziale dei risultati della trascrizione corrispondenti a parti sequenziali di audio. |
metadata |
I metadati sul riconoscimento. |
Riconoscimento
Un messaggio del riconoscimento. Archivia la configurazione del riconoscimento e i metadati.
Campi | |
---|---|
name |
Solo output. Identificatore. Il nome della risorsa del riconoscimento. Formato: |
uid |
Solo output. Identificatore univoco assegnato dal sistema per il riconoscimento. |
display_name |
Nome leggibile e configurabile dall'utente per il riconoscimento. Deve avere una lunghezza massima di 63 caratteri. |
model |
Facoltativo. Questo campo è stato ritirato. Preferisci il campo Quale modello utilizzare per le richieste di riconoscimento. Seleziona il modello più adatto al tuo dominio per ottenere risultati ottimali. Le indicazioni per la scelta del modello da utilizzare sono disponibili nella documentazione sui modelli di trascrizione, mentre i modelli supportati in ogni regione sono disponibili nella tabella dei modelli supportati. |
language_codes[] |
Facoltativo. Questo campo è stato ritirato. Preferisci il campo La lingua dell'audio fornito sotto forma di tag lingua BCP-47. Le lingue supportate per ogni modello sono elencate nella Tabella dei modelli supportati. Se vengono fornite altre lingue, il risultato del riconoscimento conterrà il riconoscimento nella lingua più probabile rilevata. Il risultato del riconoscimento includerà il tag della lingua rilevata nell'audio. Quando crei o aggiorni un riconoscimento, questi valori vengono memorizzati nel formato BCP-47 normalizzato. Ad esempio, "en-us" viene memorizzato come "en-US". |
default_recognition_config |
Configurazione predefinita da utilizzare per le richieste con questo riconoscimento. Può essere sovrascritta dalla configurazione incorporata nel campo |
annotations |
Consente agli utenti di archiviare piccole quantità di dati arbitrari. Sia la chiave che il valore devono contenere al massimo 63 caratteri ciascuno. Massimo 100 annotazioni. |
state |
Solo output. Lo stato del ciclo di vita del riconoscimento. |
create_time |
Solo output. Data/ora creazione. |
update_time |
Solo output. L'ultima volta che questo riconoscimento è stato modificato. |
delete_time |
Solo output. La data e l'ora in cui è stata richiesta l'eliminazione di questo riconoscimento. |
expire_time |
Solo output. La data in cui il riconoscimento verrà eliminato definitivamente. |
etag |
Solo output. Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere. |
reconciling |
Solo output. Indica se il riconoscimento è in fase di aggiornamento. |
kms_key_name |
Solo output. Il nome della chiave KMS con cui è criptato il riconoscimento. Il formato previsto è |
kms_key_version_name |
Solo output. Il nome della versione della chiave KMS con cui è criptato il riconoscimento. Il formato previsto è |
Stato
Insieme di stati che definiscono il ciclo di vita di un riconoscimento.
Enum | |
---|---|
STATE_UNSPECIFIED |
Il valore predefinito. Questo valore viene utilizzato se lo stato viene omesso. |
ACTIVE |
Il riconoscimento è attivo e pronto per l'uso. |
DELETED |
Questo riconoscimento è stato eliminato. |
SpeakerDiarizationConfig
Configurazione per abilitare la diarizzazione dello speaker.
Campi | |
---|---|
min_speaker_count |
Obbligatorio. Numero minimo di partecipanti alla conversazione. Questo intervallo offre una maggiore flessibilità, consentendo al sistema di determinare automaticamente il numero corretto di speaker. Per correggere il numero di speaker rilevati nell'audio, imposta |
max_speaker_count |
Obbligatorio. Numero massimo di partecipanti alla conversazione. I valori validi sono: 1-6. Deve essere >= |
SpeechAdaptation
Fornisce "suggerimenti" al riconoscimento vocale per favorire parole e frasi specifiche nei risultati. I PhraseSet possono essere specificati come risorsa in linea o come riferimento a una risorsa PhraseSet esistente.
Campi | |
---|---|
phrase_sets[] |
Un elenco di PhraseSet in linea o a cui fa riferimento. |
custom_classes[] |
Un elenco di classi personalizzate in linea. È possibile fare riferimento direttamente alle risorse CustomClass esistenti in un PhraseSet. |
AdaptationPhraseSet
Un PhraseSet con differenziazione, che può essere una stringa che fa riferimento al nome di una risorsa PhraseSets esistente o una definizione in linea di un PhraseSet.
Campi | |
---|---|
Campo di unione
|
|
phrase_set |
Il nome di una risorsa PhraseSet esistente. L'utente deve avere accesso in lettura alla risorsa e questa non deve essere eliminata. |
inline_phrase_set |
Un PhraseSet definito in linea. |
SpeechRecognitionAlternative
Ipotesi alternative (ovvero elenco n-best).
Campi | |
---|---|
transcript |
Testo della trascrizione che rappresenta le parole pronunciate dall'utente. |
confidence |
La stima di confidenza è compresa tra 0,0 e 1,0. Un numero più alto indica una stima maggiore probabilità che le parole riconosciute siano corrette. Questo campo è impostato solo per l'alternativa superiore di un risultato non di streaming o di un risultato di streaming in cui |
words[] |
Un elenco di informazioni specifiche di ogni parola riconosciuta. Una volta impostato |
SpeechRecognitionResult
Un risultato di riconoscimento vocale corrispondente a una parte dell'audio.
Campi | |
---|---|
alternatives[] |
Può contenere una o più ipotesi di riconoscimento. Queste alternative vengono ordinate in termini di precisione, dove la migliore (la prima) alternativa è la più probabile, in base alla classificazione del riconoscimento. |
channel_tag |
Per l'audio multicanale, si tratta del numero del canale corrispondente al risultato riconosciuto per l'audio proveniente da quel canale. Per |
result_end_offset |
Offset temporale della fine di questo risultato rispetto all'inizio dell'audio. |
language_code |
Solo output. Il tag della lingua BCP-47 per la lingua in questo risultato. È stato rilevato che questo codice lingua ha maggiori probabilità di essere pronunciato nell'audio. |
SrtOutputFileFormatConfig
Questo tipo non contiene campi.
File di sottotitoli in formato SubRip Text per le configurazioni di output.
StreamingRecognitionConfig
Fornisce informazioni di configurazione per la richiesta StreamingRecognition.
Campi | |
---|---|
config |
Obbligatorio. Funzionalità e metadati audio da utilizzare per il riconoscimento vocale automatico. Questo campo, in combinazione con il campo |
config_mask |
L'elenco di campi in |
streaming_features |
Funzionalità di riconoscimento vocale per consentire specifiche richieste di riconoscimento audio in streaming. |
StreamingRecognitionFeatures
Funzioni di riconoscimento disponibili specifiche per le richieste di riconoscimento dello streaming.
Campi | |
---|---|
enable_voice_activity_events |
Se |
interim_results |
Se trasmettere o meno i risultati provvisori al cliente. Se è impostato su true, i risultati provvisori verranno trasmessi al client. In caso contrario, verrà riprodotta in streaming solo la risposta finale. |
voice_activity_timeout |
Se questa impostazione è impostata, il server chiuderà automaticamente lo stream una volta trascorso il periodo di tempo specificato dopo l'invio dell'ultimo evento vocale VOICE_ACTIVITY. Anche il campo |
VoiceActivityTimeout
Eventi per i quali è possibile impostare un timeout per l'attività vocale.
Campi | |
---|---|
speech_start_timeout |
Durata della timeout dello stream se non inizia alcun discorso. Se il criterio è impostato e non viene rilevato alcun parlato in questa durata all'inizio dello stream, il server chiuderà lo stream. |
speech_end_timeout |
Durata per timeout dello stream al termine della voce. Se questa impostazione è impostata e non viene rilevato alcun parlato in questo periodo di tempo dopo il rilevamento, il server chiude lo stream. |
StreamingRecognitionResult
Un risultato di riconoscimento vocale in streaming corrispondente a una parte dell'audio attualmente in fase di elaborazione.
Campi | |
---|---|
alternatives[] |
Può contenere una o più ipotesi di riconoscimento. Queste alternative vengono ordinate in termini di precisione, dove la migliore (la prima) alternativa è la più probabile, in base alla classificazione del riconoscimento. |
is_final |
Se |
stability |
Una stima della probabilità che il riconoscimento non modifichi la sua ipotesi su questo risultato temporaneo. I valori vanno da 0.0 (completamente instabile) a 1.0 (completamente stabile). Questo campo è fornito solo per i risultati provvisori ( |
result_end_offset |
Offset temporale della fine di questo risultato rispetto all'inizio dell'audio. |
channel_tag |
Per l'audio multicanale, si tratta del numero del canale corrispondente al risultato riconosciuto per l'audio proveniente da quel canale. Per |
language_code |
Solo output. Il tag della lingua BCP-47 per la lingua in questo risultato. È stato rilevato che questo codice lingua ha maggiori probabilità di essere pronunciato nell'audio. |
StreamingRecognizeRequest
Messaggio di richiesta per il metodo StreamingRecognize
. Più messaggi di StreamingRecognizeRequest
vengono inviati in una sola chiamata.
Se il Recognizer
a cui fa riferimento recognizer
contiene una configurazione di richiesta completamente specificata, il flusso può contenere solo messaggi con solo audio
impostato.
In caso contrario, il primo messaggio deve contenere un messaggio recognizer
e un messaggio streaming_config
che specifichino in modo completo la configurazione della richiesta e non devono contenere audio
. Per tutti i messaggi successivi deve essere impostato solo audio
.
Campi | |
---|---|
recognizer |
Obbligatorio. Il nome del riconoscimento da utilizzare durante il riconoscimento. Il formato previsto è |
Campo di unione
|
|
streaming_config |
StreamingRecognitionConfig da utilizzare in questo tentativo di riconoscimento. Se fornito, questo sostituirà il valore RecognitionConfig predefinito memorizzato nel riconoscimento. |
audio |
Byte audio in linea da riconoscere. La dimensione massima di questo campo è 15 kB per richiesta. |
StreamingRecognizeResponse
StreamingRecognizeResponse
è l'unico messaggio restituito al client da StreamingRecognize
. Una serie di zero o più messaggi StreamingRecognizeResponse
viene riprodotta in streaming al client. Se non esiste un audio riconoscibile, i messaggi non vengono trasmessi nuovamente al client.
Di seguito sono riportati alcuni esempi di StreamingRecognizeResponse
che potrebbero essere restituiti durante l'elaborazione dell'audio:
results { alternatives { transcript: "tube" } stability: 0.01 }
results { alternatives { transcript: "to be a" } stability: 0.01 }
results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }
results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }
results { alternatives { transcript: " that's" } stability: 0.01 }
results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }
results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }
Note
Solo due delle precedenti risposte 4 e 7 contengono risultati finali; sono indicate da
is_final: true
. La concatenazione di questi elementi genera la trascrizione completa: "essere o non essere questa è la domanda".Gli altri contengono
results
provvisori. Il numero 3 e il numero 6 contengono dueresults
provvisori: la prima parte ha un'elevata stabilità e ha meno probabilità di cambiare; la seconda ha una stabilità bassa ed è molto probabile che cambi. Un progettista UI potrebbe scegliere di mostrare soloresults
ad alta stabilità.I valori specifici di
stability
econfidence
mostrati sopra sono solo a scopo illustrativo. I valori effettivi possono variare.In ogni risposta, verrà impostato solo uno di questi campi:
error
,speech_event_type
o uno o piùresults
(ripetuti).
Campi | |
---|---|
results[] |
Questo elenco ripetuto contiene zero o più risultati corrispondenti a parti consecutive dell'audio attualmente in fase di elaborazione. Contiene zero o un risultato |
speech_event_type |
Indica il tipo di evento vocale. |
speech_event_offset |
Differenza temporale tra l'inizio dell'audio e l'emissione dell'evento. |
metadata |
I metadati sul riconoscimento. |
SpeechEventType
Indica il tipo di evento vocale.
Enum | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Nessun evento vocale specificato. |
END_OF_SINGLE_UTTERANCE |
Questo evento indica che il server ha rilevato la fine delle frasi vocali dell'utente e non si aspetta ulteriori comandi vocali. Di conseguenza, il server non elaborerà audio aggiuntivo e chiuderà lo stream bidirezionale gRPC. Questo evento viene inviato solo se si è verificato un interruzione forzata dovuta al rilevamento anticipato del silenzio. Questo evento è disponibile solo tramite il latest_short model . |
SPEECH_ACTIVITY_BEGIN |
Questo evento indica che il server ha rilevato l'inizio dell'attività vocale umana nello stream. Questo evento può essere restituito più volte se la voce inizia e si interrompe ripetutamente durante lo stream. Questo evento viene inviato solo se il criterio voice_activity_events è impostato su true. |
SPEECH_ACTIVITY_END |
Questo evento indica che il server ha rilevato la fine dell'attività vocale umana nello stream. Questo evento può essere restituito più volte se la voce inizia e si interrompe ripetutamente durante lo stream. Questo evento viene inviato solo se il criterio voice_activity_events è impostato su true. |
TranscriptNormalization
Configurazione di normalizzazione della trascrizione. Usa la normalizzazione della trascrizione per sostituire automaticamente parti della trascrizione con frasi di tua scelta. Per StreamingRiconoscimento, questa normalizzazione si applica solo alle trascrizioni parziali stabili (stabilità > 0,8) e alle trascrizioni finali.
Campi | |
---|---|
entries[] |
Un elenco di voci sostitutive. Effettueremo la sostituzione con una voce alla volta. Ad esempio, la seconda voce in ["gatto" => "cane", "gatto di montagna" => "cane di montagna"] non verrà mai applicata perché elaboreremo sempre la prima voce precedente. Massimo 100 voci. |
Voce
Un'unica configurazione sostitutiva.
Campi | |
---|---|
search |
Cosa sostituire. La lunghezza massima è di 100 caratteri. |
replace |
Con cosa sostituire. La lunghezza massima è di 100 caratteri. |
case_sensitive |
Se la ricerca è sensibile alle maiuscole. |
UndeleteCustomClassRequest
Messaggio di richiesta per il metodo UndeleteCustomClass
.
Campi | |
---|---|
name |
Obbligatorio. Il nome del CustomClass di cui annullare l'eliminazione. Formato: |
validate_only |
Se impostato, convalida la richiesta e visualizza l'anteprima del CustomClass non eliminato, ma non annullarlo effettivamente. |
etag |
Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere. |
UndeletePhraseSetRequest
Messaggio di richiesta per il metodo UndeletePhraseSet
.
Campi | |
---|---|
name |
Obbligatorio. Il nome del PhraseSet di cui annullare l'eliminazione. Formato: |
validate_only |
Se impostato, convalida la richiesta e visualizza l'anteprima del PhraseSet non eliminato, ma non annullarne l'eliminazione. |
etag |
Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere. |
UndeleteRecognizerRequest
Messaggio di richiesta per il metodo UndeleteRecognizer
.
Campi | |
---|---|
name |
Obbligatorio. Il nome del riconoscimento di cui annullare l'eliminazione. Formato: |
validate_only |
Se impostato, convalida la richiesta e visualizza l'anteprima del riconoscimento non eliminato, ma non annullarne l'eliminazione. |
etag |
Questo checksum viene calcolato dal server in base al valore di altri campi. Questa informazione può essere inviata alle richieste di aggiornamento, annullamento dell'eliminazione ed eliminazione per garantire che il client abbia un valore aggiornato prima di procedere. |
UpdateConfigRequest
Messaggio di richiesta per il metodo UpdateConfig
.
Campi | |
---|---|
config |
Obbligatorio. La configurazione da aggiornare. Il campo |
update_mask |
L'elenco dei campi da aggiornare. |
UpdateCustomClassRequest
Messaggio di richiesta per il metodo UpdateCustomClass
.
Campi | |
---|---|
custom_class |
Obbligatorio. Il valore CustomClass da aggiornare. Il campo |
update_mask |
L'elenco dei campi da aggiornare. Se è vuoto, tutti i campi vengono presi in considerazione per l'aggiornamento. |
validate_only |
Se impostato, convalida la richiesta e visualizza l'anteprima del CustomClass aggiornato, ma non aggiornarlo effettivamente. |
UpdatePhraseSetRequest
Messaggio di richiesta per il metodo UpdatePhraseSet
.
Campi | |
---|---|
phrase_set |
Obbligatorio. Il valore PhraseSet da aggiornare. Il campo |
update_mask |
L'elenco di campi da aggiornare. Se sono vuoti, tutti i campi con valori non predefiniti vengono presi in considerazione per l'aggiornamento. Usa |
validate_only |
Se impostato, convalida la richiesta e visualizza l'anteprima del PhraseSet aggiornato, ma non aggiornarlo effettivamente. |
UpdateRecognizerRequest
Messaggio di richiesta per il metodo UpdateRecognizer
.
Campi | |
---|---|
recognizer |
Obbligatorio. Il riconoscimento da aggiornare. Il campo |
update_mask |
L'elenco di campi da aggiornare. Se sono vuoti, tutti i campi con valori non predefiniti vengono presi in considerazione per l'aggiornamento. Usa |
validate_only |
Se impostato, convalida la richiesta e visualizza l'anteprima del riconoscimento aggiornato, ma non aggiornarlo effettivamente. |
VttOutputFileFormatConfig
Questo tipo non contiene campi.
Configurazioni di output per il file dei sottotitoli in formato WebVTT.
WordInfo
Informazioni specifiche di una parola per le parole riconosciute.
Campi | |
---|---|
start_offset |
Differenza temporale rispetto all'inizio dell'audio e corrispondente all'inizio del parlato. Questo campo viene impostato solo se |
end_offset |
Differenza temporale rispetto all'inizio dell'audio e corrispondente alla fine del parlato. Questo campo viene impostato solo se |
word |
La parola corrispondente a questo insieme di informazioni. |
confidence |
La stima di confidenza è compresa tra 0,0 e 1,0. Un numero più alto indica una stima maggiore probabilità che le parole riconosciute siano corrette. Questo campo è impostato solo per l'alternativa superiore di un risultato non di streaming o di un risultato di streaming in cui |
speaker_label |
Viene assegnata un'etichetta distinta a ogni persona che parla nell'audio. Questo campo specifica quale di questi interlocutori è stato rilevato che ha pronunciato questa parola. |