Indice
DictationService
(interfaccia)CreateDictationRequest
(messaggio)CreateDictationStoreRequest
(messaggio)CreateNoteRequest
(messaggio)CreateSpeechConfigRequest
(messaggio)DeleteDictationRequest
(messaggio)DeleteDictationStoreRequest
(messaggio)DeleteNoteRequest
(messaggio)DeleteSpeechConfigRequest
(messaggio)Dictation
(messaggio)DictationStore
(messaggio)GetDictationRequest
(messaggio)GetDictationStoreRequest
(messaggio)GetNoteRequest
(messaggio)GetSpeechConfigRequest
(messaggio)ListDictationStoresRequest
(messaggio)ListDictationStoresResponse
(messaggio)ListDictationsRequest
(messaggio)ListDictationsResponse
(messaggio)ListNotesRequest
(messaggio)ListNotesResponse
(messaggio)ListSpeechConfigsRequest
(messaggio)ListSpeechConfigsResponse
(messaggio)Note
(messaggio)Note.Type
(enumerazione)RecognitionAudio
(messaggio)RecognitionConfig
(messaggio)RecognitionConfig.AudioEncoding
(enumerazione)RecognizeRequest
(messaggio)RecognizeResponse
(messaggio)RecognizedAction
(messaggio)RecognizedActionParameter
(messaggio)SpeechConfig
(messaggio)SpeechRecognitionResult
(messaggio)StreamingRecognitionResult
(messaggio)StreamingRecognizeRequest
(messaggio)StreamingRecognizeResponse
(messaggio)StreamingRecognizeResponse.SpeechEventType
(enumerazione)TrainingConsent
(enumerazione)UpdateDictationRequest
(messaggio)UpdateDictationStoreRequest
(messaggio)UpdateNoteRequest
(messaggio)UpdateSpeechConfigRequest
(messaggio)WordInfo
(messaggio)
Dettatura
Un servizio per la gestione delle richieste di dettatura medica. I dati di dettatura vengono archiviati insieme ad altre modalità sanitarie nei set di dati. Ogni set di dati può avere zero o più archivi dati modali, ad esempio dictation stores
. L'audio per la dettatura (Dictations
) e i risultati trascritti (Notes
) sono i due tipi di dati principali memorizzati negli archivi per la dettatura. SpeechConfigs
codificano i parametri utilizzati per il riconoscimento vocale automatico.
CreaDettatura | |
---|---|
Crea un nuovo record
|
CreateDictationStore | |
---|---|
Crea un nuovo elemento
|
Crea nota | |
---|---|
Crea un nuovo elemento
|
Creazione SpeechConfig | |
---|---|
Crea un nuovo elemento
|
EliminaDettatura | |
---|---|
Elimina un elemento
|
EliminazioneDictationStore | |
---|---|
Elimina la
|
Elimina nota | |
---|---|
Elimina una
|
Eliminazione SpeechConfig | |
---|---|
Elimina un elemento
|
GetDtation | |
---|---|
Visualizza un
|
GetDictationStore | |
---|---|
Visualizza il valore
|
GetIamPolicy | |
---|---|
Restituisce il criterio di controllo dell'accesso per una risorsa. Restituisce l'errore NOT_FOUND se la risorsa non esiste. Restituisce un criterio vuoto se la risorsa esiste, ma non è stato impostato un criterio. L'autorizzazione richiede l'autorizzazione Google IAM
|
Nota | |
---|---|
Visualizza un
|
GetSpeechConfig | |
---|---|
Restituisce una configurazione
|
ListDictationStores | |
---|---|
Elenca i valori
|
ListDictations | |
---|---|
Elenca i valori
|
Note elenco | |
---|---|
Elenca tutti gli elementi
|
ListSpeechConfig | |
---|---|
Elenca tutti gli elementi
|
Riconosci | |
---|---|
Esegue il riconoscimento vocale asincrono: riceve i risultati tramite l'interfaccia di
|
SetIamPolicy | |
---|---|
Imposta il criterio di controllo degli accessi per una risorsa. Sostituisce qualsiasi criterio esistente. L'autorizzazione richiede l'autorizzazione Google IAM
|
Riconoscimento streaming | |
---|---|
Esegue il riconoscimento vocale in streaming bidirezionale, che consente al client di ricevere i risultati durante l'invio dell'audio. Questo metodo è disponibile solo tramite l'API gRPC (non REST). L'audio inviato tramite questo metodo viene aggiunto al
|
Autorizzazioni di TestIam | |
---|---|
Restituisce le autorizzazioni di un chiamante per la risorsa specificata. Se la risorsa non esiste, verrà restituito un insieme di autorizzazioni vuoto, non un errore NOT_FOUND. Non è necessaria alcuna autorizzazione per effettuare questa chiamata API.
|
AggiornaDettatura | |
---|---|
Aggiorna il
|
UpdateDictationStore | |
---|---|
Consente di aggiornare l'elemento
|
AggiornaNota | |
---|---|
Aggiorna il
|
UpdateSpeechConfig | |
---|---|
Aggiorna il
|
CreateDictationRequest
Crea un record Dictation
con campioni audio e lo aggiunge a Dictation store
.
Campi | |
---|---|
parent |
Il nome dell'archivio di dettatura a cui appartiene questa dettatura. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
dictation |
Dettatura da creare. |
return_mask |
La maschera di reso si applica alla risorsa di dettatura da restituire. Per la definizione di |
CreateDictationStoreRequest
Crea un nuovo elemento Dictation store
.
Campi | |
---|---|
parent |
Il nome del set di dati a cui appartiene questo archivio di dettatura. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
dictation_store_id |
L'ID del negozio di dettatura in fase di creazione. La stringa deve corrispondere alla seguente regex: |
dictation_store |
Informazioni di configurazione per questo archivio di dettatura. |
CreateNoteRequest
Campi | |
---|---|
parent |
Il nome della dettatura a cui appartiene questa nota. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
note |
Nota per la creazione. |
return_mask |
La maschera di aggiornamento si applica alla risorsa di nota restituita. Per la definizione di |
CreateSpeechConfigRequest
Crea un record SpeechConfig
che include la configurazione del riconoscimento e lo aggiunge a Dictation store
.
Campi | |
---|---|
parent |
Il nome dell'archivio di dettatura a cui appartiene questa voice_config. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
speech_config |
SpeechConfig. |
DeleteDictationRequest
Elimina un Dictation
dalla Dictation store
specificata.
Campi | |
---|---|
name |
Il nome della risorsa della dettatura da eliminare. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
EliminaDictationStoreRequest
Elimina l'elemento Dictation store
specificato.
Campi | |
---|---|
name |
Il nome della risorsa dell'archivio di dettatura da eliminare. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
DeleteNoteRequest
Campi | |
---|---|
name |
Il nome della risorsa da eliminare. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
EliminazioneSpeechConfigConfig
Elimina una configurazione SpeechConfig
da Dictation store
specificato.
Campi | |
---|---|
name |
Il nome della risorsa della configurazione SpeechConfig da eliminare. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
Dettatura
Una dettatura.
Campi | |
---|---|
name |
Nome della risorsa della dettatura nel formato |
audio |
Quando viene restituito nella risposta GetDictation, include il contenuto audio nella rappresentazione binaria. Il campo audio non è incluso nelle risposte CreateDictation e UpdateDictation. |
create_time |
Solo output. L'ora in cui è stata creata la dettatura. |
training_consent |
Specifica ALLOW per consentire l'utilizzo di questa dettatura e le relative note per migliorare il riconoscimento vocale. Questo valore sostituisce il valore del campo training_consent nel campo DictationStore principale. Se questo valore viene omesso, viene usato il valore del campo Training_consent in DictationStore. |
Store di Dettatura
Un archivio per la dettatura in grado di archiviare altre risorse correlate alla dettatura, come dettature, note e SpeechConfigs
.
Campi | |
---|---|
name |
Solo output. Nome della risorsa dell'archivio di dettatura nel formato |
pubsub_topic |
L'argomento Cloud Pub/Sub su cui vengono pubblicate le notifiche di modifiche a dettature e note. PubsubMessage.Data contiene il nome della risorsa Dettatura o Nota. PubsubMessage.Attribute contiene una mappa con una stringa che descrive l'azione che ha attivato la notifica, ad esempio "action":"CreateDictation". Le notifiche vengono inviate solo se l'argomento non è vuoto. I nomi di argomenti devono avere come ambito un progetto. Questa API deve disporre delle autorizzazioni dei publisher per l'argomento Cloud Pub/Sub specificato. Se le autorizzazioni non sono adeguate, le chiamate che inviano notifiche non riusciranno. Fornito dal cliente. |
training_consent |
Specifica ALLOW per consentire l'utilizzo delle risorse in questo negozio per migliorare il riconoscimento vocale. Puoi comunque specificare esclusioni per ogni dettatura utilizzando il campo Dettatura.training_consent, che sostituirà il valore specificato nel contenitore DictationStore. Questa opzione è considerata DISALLOW quando non è specificata. |
labels |
Coppie chiave-valore fornite dall'utente per organizzare gli archivi di dettatura. Le chiavi di etichetta devono avere una lunghezza compresa tra 1 e 63 caratteri, avere una codifica UTF-8 di massimo 128 byte e devono essere conformi alla seguente espressione regolare PCRE: [\p{Ll}\p{Lo}][\p{Ll}\p{Lo}\p{N}_-]{0,62} I valori etichette sono facoltativi, devono avere una lunghezza compresa tra 1 e 63 caratteri, avere una codifica UTF-8 di massimo 128 byte e devono essere conformi alla seguente espressione regolare PCRE: [\p{Ll}\p{Lo}\p{N}_-]{0,63} Non è possibile associare più di 64 etichette a un determinato negozio. |
GetDictationRequest
Visualizza un Dictation
dal Dictation store
specificato.
Campi | |
---|---|
name |
Il nome della risorsa Dettatura da recuperare. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
GetDictationStoreRequest
Visualizza un Dictation store
.
Campi | |
---|---|
name |
Il nome della risorsa dell'archivio Dettatura da ottenere. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
GetNoteRequest
Campi | |
---|---|
name |
Il nome della risorsa da recuperare. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
GetSpeechConfigRequest
Recupera un record SpeechConfig
da Dictation store
specificato.
Campi | |
---|---|
name |
Il nome della risorsa di configurazione di SpeechConfig da recuperare. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
ListDictationStoresRequest
Elenca i valori Dictation stores
nel set di dati specificato.
Campi | |
---|---|
parent |
Nome del set di dati. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
page_size |
Limita il numero di negozi di dettatura da restituire in un'unica risposta. Se zero, viene utilizzata la dimensione di pagina predefinita 100. |
page_token |
Il valore next_page_token restituito dall'eventuale richiesta Elenco. |
filter |
Limita i negozi restituiti a quelli corrispondenti a un filtro. Sintassi: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Sono supportati solo i filtri sulle etichette, ad esempio |
ListDictationStoresResponse
Elenca i valori Dictation stores
nel set di dati specificato.
Campi | |
---|---|
dictation_stores[] |
Vengono archiviati i file di dettatura restituiti. Non sarà più un negozio di dettatura più grande del valore di page_size nella richiesta. |
next_page_token |
Token per recuperare la pagina successiva dei risultati o vuoto se non ci sono più risultati nell'elenco. |
ListDictationsRequest
Elenca i Dictations
nel campo Dictation store
specificato.
Campi | |
---|---|
parent |
Nome dell'archivio di dettatura da cui recuperare le dettature. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
page_size |
Limita il numero di dettature da restituire in una singola risposta. Se zero, viene utilizzata la dimensione di pagina predefinita 100. |
page_token |
Il valore next_page_token restituito dall'eventuale richiesta Elenco. |
filter |
Limita le dettature restituite a quelli che corrispondono a un filtro. Sintassi: https://cloud.google.com/appengine/docs/standard/python/search/query_strings I campi/le funzioni disponibili per il filtro sono: - use_for_Speech_training |
ListDictationsResponse
Elenca i Dictations
nel campo Dictation store
specificato.
Campi | |
---|---|
dictation_names[] |
I nomi dei dettati restituiti. Non devono essere più valori del valore page_size nella richiesta. |
next_page_token |
Token per recuperare la pagina successiva dei risultati o vuoto se non ci sono più risultati nell'elenco. |
ListNotesRequest
Campi | |
---|---|
parent |
Nome della dettatura da cui recuperare le note. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
page_size |
Limita il numero di note da restituire in un'unica risposta. Se zero, viene utilizzata la dimensione di pagina predefinita 100. |
page_token |
Il valore next_page_token restituito dall'eventuale richiesta Elenco. |
filter |
Limita le note restituite a quelle corrispondenti a un filtro. Sintassi: https://cloud.google.com/appengine/docs/standard/python/search/query_strings I campi/le funzioni disponibili per il filtro sono: - tipo - origine - voice_config_name - speaker_external_id - speaker_uma_name |
ListNotesResponse
Campi | |
---|---|
note_names[] |
I nomi delle note restituite. Non devono essere più valori del valore page_size nella richiesta. |
next_page_token |
Token per recuperare la pagina successiva dei risultati o vuoto se non ci sono più risultati nell'elenco. |
ListSpeechConfigsRequest
Elenca i SpeechConfigs
nel campo Dictation store
specificato.
Campi | |
---|---|
parent |
Nome dell'archivio di dettatura da cui recuperare i SpeechConfig. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
page_size |
Limita il numero di SpeechConfig da restituire in un'unica risposta. Se zero, viene utilizzata la dimensione di pagina predefinita 100. |
page_token |
Il valore next_page_token restituito dall'eventuale richiesta Elenco. |
filter |
Limita gli oggetti SpeechConfig restituiti a quelli corrispondenti a un filtro. Sintassi: https://cloud.google.com/appengine/docs/standard/python/search/query_strings I campi/le funzioni disponibili per il filtro sono: - speaker_external_id - speaker_uma_name |
ListSpeechConfigsResponse
Elenca i SpeechConfigs
nel campo Dictation store
specificato.
Campi | |
---|---|
speech_config_names[] |
I nomi di SpeechConfig restituiti. Non devono essere più valori del valore page_size nella richiesta. |
next_page_token |
Token per recuperare la pagina successiva dei risultati o vuoto se non ci sono più risultati nell'elenco. |
Nota
La nota può rappresentare i risultati del riconoscimento vocale o essere stati inseriti come fonte di riferimento per facilitare l'addestramento di modelli di riconoscimento vocale e la memorizzazione delle trascrizioni corrette finali.
Campi | |
---|---|
name |
Nome della risorsa della nota, nel formato |
speech_config_name |
SpeechConfig utilizzato per produrre questa nota in formato |
type |
Tipo di nota. |
origin |
L'origine dei risultati del riconoscimento, ad esempio un modello specifico utilizzato. |
speech_recognition_results[] |
Elenco sequenziale dei risultati delle trascrizioni corrispondenti a parti sequenziali di audio, ad esempio parti di audio pronunciate dagli altoparlanti che si alternano in una finestra di dialogo. |
create_time |
L'ora in cui è stata creata la nota. Impostato dal server. |
Tipo
Tipo di nota.
Enum | |
---|---|
TYPE_UNSPECIFIED |
Tipo non valido o non specificato. |
VERBATIM |
Nota verbale che può essere utilizzata come "basato sulla verità di base" per l'audio di dettatura. |
CORRECTION |
Correzioni rispetto alla nota generata da una chiamata a Riconosci. |
DRAFT |
Bozza di nota che può essere ancora aggiornata prima di generare una nota finale. |
FINAL |
Nota finale approvata. |
AUTO_RECOGNIZED |
Solo output. Nota generata da una chiamata a Recognize. Impossibile creare una nota di tipo AUTO_RECOGNIZED con CreateNote. Impossibile aggiornare una nota con il tipo AUTO_RECOGNIZED con UpdateNote. Impossibile aggiornare una nota con UpdateNote in modo che abbia il tipo AUTO_RECOGNIZED. |
RecognitionAudio
Contiene i dati audio nella codifica specificata nel RecognitionConfig
. È necessario specificare content
o uri
. Se fornisci entrambi o nessuno dei due, verrà restituito google.rpc.Code.INVALID_ARGUMENT
. Vedi i limiti di audio.
Campi | ||
---|---|---|
Campo audio_source . L'origine audio, ovvero contenuti in linea o un URI Cloud Storage. audio_source può essere solo uno dei seguenti: |
||
content |
I byte dei dati audio codificati come specificato in |
|
uri |
URI che indirizza a un file contenente byte di dati audio come specificato in |
RecognitionConfig
Fornisce informazioni al responsabile che specificano come elaborare la richiesta.
Campi | |
---|---|
encoding |
Codifica di dati audio inviati in tutti i messaggi |
sample_rate_hertz |
Frequenza di campionamento in Hertz dei dati audio inviati in tutti i messaggi |
audio_channel_count |
Il numero di canali nei dati audio di input. Impostalo SOLO per il riconoscimento MULTI-CANALE. I valori validi per LINEAR16 e FLAC sono |
enable_separate_recognition_per_channel |
Questo valore deve essere impostato su 'true' esplicitamente e audio_channel_count > 1 per far riconoscere ogni canale separatamente. Il risultato del riconoscimento conterrà un campo channel_tag per specificare il canale a cui appartiene il risultato. Se non è 'true', riconosceremo solo il primo canale. |
language_code |
La lingua dell'audio fornito come tag della lingua BCP-47. Esempio: "en-US". Consulta la pagina Supporto delle lingue per un elenco dei codici lingua attualmente supportati. |
context_phrases[] |
Un elenco di stringhe contenenti parole e frasi "per suggerimenti" in modo che il riconoscimento vocale sia più in grado di riconoscerle. Può essere utilizzato per migliorare la precisione di parole e frasi specifiche, ad esempio se vengono pronunciati in genere comandi specifici. Può essere utilizzato anche per aggiungere altre parole al vocabolario dell'autore del riconoscimento. |
model |
Il modello da selezionare per la richiesta specifica. Se un modello non viene specificato esplicitamente, viene utilizzato il valore predefinito: 'default'. |
AudioEncoding
La codifica dei dati audio inviati nella richiesta.
Tutte le codifiche supportano solo l'audio a 1 canale (mono).
Per ottenere risultati ottimali, la sorgente audio deve essere acquisita e trasmessa utilizzando una codifica senza perdita di dati (FLAC
o LINEAR16
). L'accuratezza del riconoscimento vocale può essere ridotta se vengono utilizzati codec perditi per acquisire o trasmettere audio, in particolare se è presente rumore di fondo. I codec persi includono MULAW
, AMR
, AMR_WB
, OGG_OPUS
e SPEEX_WITH_HEADER_BYTE
.
I formati file audio FLAC
e WAV
includono un'intestazione che descrive i contenuti audio inclusi. Puoi richiedere il riconoscimento per i file WAV
che contengono audio codificato in LINEAR16
o MULAW
. Se invii un formato file audio FLAC
o WAV
nella tua richiesta, non è necessario specificare un AudioEncoding
; il formato della codifica audio viene determinato dall'intestazione del file. Se specifichi un valore AudioEncoding
quando invii audio FLAC
o WAV
, la configurazione della codifica deve corrispondere a quella descritta nell'intestazione audio; in caso contrario la richiesta restituisce un codice di errore google.rpc.Code.INVALID_ARGUMENT
.
Enum | |
---|---|
ENCODING_UNSPECIFIED |
Non specificato. |
LINEAR16 |
Esempi di end-endian firmati a 16 bit non compressi (PCM lineare). |
FLAC |
FLAC (Free Lossless Audio Codec) è la codifica consigliata perché è senza perdita di dati, per cui il riconoscimento non viene compromesso e richiede solo circa la metà della larghezza di banda di LINEAR16 . La codifica degli stream FLAC supporta campioni a 16 e 24 bit; tuttavia, non tutti i campi sono supportati in STREAMINFO . |
MULAW |
Campioni a 8 bit che compongono campioni audio a 14 bit utilizzando GMU 711 PC/mu-law. |
AMR |
Codec a banda stretta a frequenza multipla adattiva. sample_rate_hertz deve essere 8000. |
AMR_WB |
Codec a banda larga a frequenza multipla adattiva. sample_rate_hertz deve essere 16000. |
OGG_OPUS |
Frame audio codificati in Opus nel container Ogg (OggOpus). sample_rate_hertz deve essere uno tra 8000, 12000, 16000, 24000 o 48000. |
SPEEX_WITH_HEADER_BYTE |
Anche se l'utilizzo di codifiche con perdita di dati non è consigliato, se è richiesta una codifica con velocità in bit molto bassa, OGG_OPUS è vivamente preferibile rispetto alla codifica Speex. La codifica Speex supportata dall'API Cloud Speech ha un byte di intestazione in ogni blocco, come nel tipo MIME audio/x-speex-with-header-byte . Si tratta di una variante della codifica RTP Speex definita nel documento RFC 5574. Il flusso è una sequenza di blocchi, un blocco per pacchetto RTP. Ogni blocco inizia con un byte contenente la lunghezza del blocco, in byte, seguito da uno o più frame di dati Speex, aggiunti a un numero intero di byte (octet), come specificato in RFC 5574. In altre parole, ogni intestazione RTP viene sostituita con un singolo byte contenente la lunghezza del blocco. È supportato solo il banda larga Speex. sample_rate_hertz deve essere 16000. |
RecognizeRequest
Invia un Dictation
al motore di riconoscimento vocale. Crea un record Note
e lo aggiunge a Dictation
.
Campi | |
---|---|
name |
Il nome della risorsa della dettatura da trascrivere. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
speech_config_name |
Configurazione SpeechConfig da utilizzare nella richiesta di riconoscimento. La configurazione vocale può essere fornita come percorso REST completo: L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
enable_voice_actions |
Determina se il motore di riconoscimento deve cercare azioni vocali. |
RecognizeResponse
Risposta finale del metodo Recognize in una risorsa Dictation
. Questa struttura verrà inclusa in google.longrunning.Operation.result.response
per descrivere il risultato dettagliato dell'esecuzione di Recognize
. Verrà incluso solo al termine dell'esecuzione.
Campi | |
---|---|
note_name |
Il nome della risorsa |
RecognizedAction
L'azione vocale rilevata durante il riconoscimento.
Le possibili azioni sono elencate nella tabella sottostante.
Azione vocale | Azione riconosciuta |
Selezione del testo. Ad esempio, seleziona l'emoglobina al paziente |
{ "action_name": "TextSelection", "confidence": 1.0, "param_results": [ { "parameter_name": "FromText", "value": "hemoglobin" }, { "parameter_name": "ToText", "value": "patient" } ] } |
Rimuovi la selezione del testo. Ad esempio, deseleziona questa opzione |
{ "action_name": "RemoveSelection", "confidence": 1.0 } |
Elimina l'ultima frase o l'ultima frase Ad esempio: annulla |
{ "action_name": "Undo", "confidence": 0.8 } |
Inserisci nuova riga Ad es. nuova riga |
{ "action_name": "NewLine", "confidence": 1.0 } |
Inserisci nuovo paragrafo Ad esempio, nuovo paragrafo |
{ "action_name": "NewParagraph", "confidence": 1.0 } |
Sposta il cursore su una parola precedente Ad esempio, inserisci prima dell'emoglobina |
{ "action_name": "InsertAt", "confidence": 0.5, "param_results": [ { "parameter_name": "InsertLocation", "value": "before" }, { "parameter_name": "InsertTarget", "value": "hemoglobin" } ] } |
Sposta cursore Ad esempio, vai alla fine della frase. |
{ "action_name": "MoveCursor", "confidence": 0.6, "param_results": [ { "parameter_name": "MoveLocation", "value": "end" }, { "parameter_name": "MoveTarget", "value": "sentence" } ] } |
Creare un elenco in cui si trova il cursore Ad esempio, inserisci numero 1 basso bp. |
{ "action_name": "CreateList", "confidence": 0.6, "param_results": [ { "parameter_name": "ListNum", "value": "1" }, { "parameter_name": "InsertText", "value": "low pb" } ] } |
Campi | |
---|---|
action_name |
Nome dell'azione rilevata. |
confidence |
La stima di affidabilità tra 0,0 e 1,0. Un numero più alto indica una maggiore probabilità che si tratti dell'azione vocale specificata. |
params[] |
Elenco dei parametri per l'azione rilevata. |
Parametro azione riconosciuta
Rappresenta un parametro di azione.
Campi | |
---|---|
parameter_name |
Il nome del parametro di azione, ad esempio |
value |
Il valore del parametro di azione, ad esempio |
Configurazione vocale
Record di configurazione per supportare l'addestramento e l'adattamento. Gli altoparlanti umani possono condividere una configurazione SpeechConfig o ognuno può avere configurazioni separate.
Campi | |
---|---|
name |
Nome della risorsa della configurazione, nel formato |
recognition_config |
Fornisce informazioni al responsabile che specificano come elaborare la richiesta. |
speaker_external_id |
ID in un sistema esterno che può essere utilizzato per selezionare una determinata configurazione. |
speaker_human_name |
Nome umano, se fornito. |
SpeechRecognitionResult
Un risultato del riconoscimento vocale corrispondente a una parte dell'audio.
Campi | |
---|---|
transcript |
Solo output. Testo della trascrizione che rappresenta le parole pronunciate dall'utente. |
confidence |
Solo output. La stima di affidabilità tra 0,0 e 1,0. Un numero più alto indica una maggiore probabilità stimata che le parole riconosciute siano corrette. Non è garantito che questo campo sia preciso e gli utenti non devono fare affidamento su di esso per essere sempre forniti. Il valore predefinito di 0,0 è un valore sentinel che indica che |
words[] |
Solo output. Un elenco di informazioni specifiche per ogni parola riconosciuta. |
channel_tag |
Per l'audio multicanale, si tratta del numero del canale corrispondente al risultato riconosciuto per l'audio di tale canale. Per audio_channel_count = N, i valori di output possono variare da '1' a 'N'. |
action |
Azione vocale rilevata durante il riconoscimento. |
StreamingRecognitionResult
Un risultato del riconoscimento vocale per lo streaming corrispondente a una parte dell'audio attualmente in fase di elaborazione.
Campi | |
---|---|
speech_recognition_result |
Solo output. Risultati incrementali del riconoscimento vocale. I risultati possono comunque cambiare purché |
is_final |
Solo output. Se |
stability |
Solo output. Una stima della probabilità che il sistema di riconoscimento non cambi le sue ipotesi su questo risultato provvisorio. I valori sono compresi tra 0,0 (completamente instabile) e 1,0 (completamente stabile). Questo campo viene fornito solo per i risultati provvisori ( |
StreamingRecognizeRequest
Il messaggio di primo livello inviato dal client per il metodo [StreamingRecognize] [google.cloud.health.v1alpha2.dictation.StreamingRecognize]. Vengono inviati più messaggi StreamingRecognizeRequest
. Il primo messaggio deve contenere un messaggio stream_setup_info
e non quelli audio_content
. Tutti i messaggi successivi devono contenere dati di audio_content
e non stream_setup_info
.
Campi | ||
---|---|---|
Campo streaming_request . La richiesta di streaming, che può essere costituita da informazioni sulla configurazione dello streaming o da contenuti audio. streaming_request può essere solo uno dei seguenti: |
||
stream_setup_info |
Fornisce informazioni al responsabile che specificano come elaborare la richiesta. Il primo messaggio |
|
audio_content |
I dati audio da riconoscere. Blocchi sequenziali di dati audio devono essere inviati nei messaggi |
StreamingRecognizeResponse
StreamingRecognizeResponse
è l'unico messaggio restituito al client da [StreamingRecognize] [google.cloud.health.v1alpha2.dictation.StreamingRecognize]. Una serie di zero o più messaggi StreamingRecognizeResponse
viene inviata al client. Se non esiste un audio riconoscibile e single_utterance
è impostato su false, nessun messaggio viene trasmesso al client.
Di seguito è riportato un esempio di una serie di StreamingRecognizeResponse
che potrebbero essere restituiti durante l'elaborazione dell'audio:
risultati {Speech_recognition_result { trascrizione: "tube" } stabilità: 0,01 }
risultati {Speech_recognition_result { trascrizione: "to a a" } stabilità: 0,01 }
risultati { voice_recognition_result { trascrizione: "
risultati {Speech_recognition_result { trascrizione: "essere o non essere" fiducia: 0,92 } is_final: true }
risultati {Speech_recognition_result { trascrizione: " that's" } stabilità: 0,01 }
results {Speech_recognition_result { trascrizione: " is" } stabilità: 0,9 } risultati {Speech_recognition_result { trascrizione: " la domanda" } stabilità: 0,01 }
results {Speech_recognition_result { trascrizione: " questa è la domanda" fiducia: 0,98 } is_final: true }
Note:
Solo due delle risposte (#4 e #7) contengono risultati finali, come indicato dal campo
is_final: true
. Concatenare le risposte genera la trascrizione completa: "essere o non essere questa è la domanda."Le altre risposte contengono
results
provvisorie. 3 e 6 contengono dueresults
provvisori: la prima parte ha un'elevata stabilità e ha meno probabilità di cambiare; la seconda parte ha una stabilità bassa ed è molto probabile che cambierà.I valori specifici di
stability
econfidence
mostrati sopra hanno esclusivamente scopo illustrativo. I valori effettivi possono variare.In ogni risposta verrà impostato solo uno dei seguenti campi:
error
,speech_event_type
o uno o più (ripetuti)results
.
Campi | |
---|---|
error |
Solo output. Stato di errore associato all'eventuale operazione di streaming. |
results[] |
Solo output. Questo elenco ripetuto contiene zero o più risultati che corrispondono a parti consecutive dell'audio attualmente in elaborazione. Contiene zero o un risultato |
speech_event_type |
Solo output. Indica il tipo di evento di lettura vocale. |
SpeechEventType
Indica il tipo di evento di lettura vocale.
Enum | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Nessun evento vocale specificato. |
END_OF_SINGLE_UTTERANCE |
Questo evento indica che il server ha rilevato la fine dell'espressione vocale dell'utente e non prevede ulteriori comandi vocali. Di conseguenza, il server non elabora l'audio aggiuntivo (anche se successivamente potrebbe restituire ulteriori risultati). Il client deve interrompere l'invio di dati audio aggiuntivi, chiudere la connessione gRPC e attendere eventuali risultati aggiuntivi fino a quando il server non chiude la connessione gRPC. Questo evento viene inviato solo se l'opzione single_utterance è stata impostata su true e non viene utilizzata in altro modo. |
TrainingConsent
Specifica il tipo di consenso concesso per migliorare il riconoscimento vocale.
Enum | |
---|---|
TRAINING_CONSENT_UNSPECIFIED |
Nessun consenso specificato. |
ALLOW |
Consenso per l'addestramento. |
DISALLOW |
Nessun consenso per l'addestramento. |
UpdateDictationRequest
Richiedi di aggiornare il Dictation
specificato.
Campi | |
---|---|
dictation |
La risorsa di dettatura che aggiorna la risorsa sul server. Solo i campi elencati in update_mask saranno obbligatori o applicati. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
update_mask |
La maschera di aggiornamento si applica alla risorsa. Per la definizione di |
UpdateDictationStoreRequest
Aggiorna il Dictation store
.
Campi | |
---|---|
dictation_store |
La risorsa di dettatura che aggiorna la risorsa sul server. Verranno applicati solo i campi elencati in update_mask. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
update_mask |
La maschera di aggiornamento si applica alla risorsa. Per la definizione di |
UpdateNoteRequest
Richiedi di aggiornare il Note
specificato, ad esempio per aggiornare SpeechConfig.
Campi | |
---|---|
note |
La risorsa Nota che aggiorna la risorsa sul server. Solo i campi elencati in update_mask saranno obbligatori o applicati. Impossibile aggiornare una nota con il tipo AUTO_RECOGNIZED. Impossibile aggiornare una nota in modo che abbia il tipo AUTO_RECOGNIZED. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
update_mask |
La maschera di aggiornamento si applica alla risorsa. Per la definizione di |
UpdateSpeechConfigRequest
Richiedi di aggiornare le SpeechConfig
specificate, ad esempio per aggiornare la lingua.
Campi | |
---|---|
speech_config |
La risorsa SpeechConfig che aggiorna la risorsa sul server. Solo i campi elencati in update_mask saranno obbligatori o applicati. L'autorizzazione richiede la seguente autorizzazione Google IAM per la risorsa specificata
|
update_mask |
La maschera di aggiornamento si applica alla risorsa. Per la definizione di |
WordInfo
Informazioni specifiche sulle parole per le parole riconosciute.
Campi | |
---|---|
start_time_offset |
Solo output. Offset ora relativo all'inizio dell'audio e corrispondente all'inizio della parola pronunciata. Questo campo viene impostato solo se |
end_time_offset |
Solo output. Offset ora relativo all'inizio dell'audio e corrispondente alla fine della parola pronunciata. Questo campo viene impostato solo se |
word |
Solo output. La parola corrispondente a questo insieme di informazioni. |
confidence |
Solo output. La stima di affidabilità tra 0,0 e 1,0. Un numero più alto indica una maggiore probabilità stimata che le parole riconosciute siano corrette. Non è garantito che questo campo sia preciso e gli utenti non devono fare affidamento su di esso per essere sempre forniti. Il valore predefinito di 0,0 è un valore sentinel che indica che |