Index
DictationService
(interfaz)CreateDictationRequest
(mensaje)CreateDictationStoreRequest
(mensaje)CreateNoteRequest
(mensaje)CreateSpeechConfigRequest
(mensaje)DeleteDictationRequest
(mensaje)DeleteDictationStoreRequest
(mensaje)DeleteNoteRequest
(mensaje)DeleteSpeechConfigRequest
(mensaje)Dictation
(mensaje)DictationStore
(mensaje)GetDictationRequest
(mensaje)GetDictationStoreRequest
(mensaje)GetNoteRequest
(mensaje)GetSpeechConfigRequest
(mensaje)ListDictationStoresRequest
(mensaje)ListDictationStoresResponse
(mensaje)ListDictationsRequest
(mensaje)ListDictationsResponse
(mensaje)ListNotesRequest
(mensaje)ListNotesResponse
(mensaje)ListSpeechConfigsRequest
(mensaje)ListSpeechConfigsResponse
(mensaje)Note
(mensaje)Note.Type
(enum)RecognitionAudio
(mensaje)RecognitionConfig
(mensaje)RecognitionConfig.AudioEncoding
(enum)RecognizeRequest
(mensaje)RecognizeResponse
(mensaje)RecognizedAction
(mensaje)RecognizedActionParameter
(mensaje)SpeechConfig
(mensaje)SpeechRecognitionResult
(mensaje)StreamingRecognitionResult
(mensaje)StreamingRecognizeRequest
(mensaje)StreamingRecognizeResponse
(mensaje)StreamingRecognizeResponse.SpeechEventType
(enum)TrainingConsent
(enum)UpdateDictationRequest
(mensaje)UpdateDictationStoreRequest
(mensaje)UpdateNoteRequest
(mensaje)UpdateSpeechConfigRequest
(mensaje)WordInfo
(mensaje)
DictationService
Un servicio para controlar solicitudes de dictado médico. Los datos de dictado se almacenan junto con otras formas de atención médica en conjuntos de datos. Cada conjunto de datos puede tener cero o más almacenes de datos de modo, p. ej., dictation stores
. El audio de dictado (Dictations
) y los resultados transcritos (Notes
) son los dos tipos de datos principales que se almacenaron en los almacenes de dictado. SpeechConfigs
codifican los parámetros que se usan para el reconocimiento de voz automático.
CreateDictation | |
---|---|
Crea un nuevo registro de
|
CreateDictationStore | |
---|---|
Crea un
|
CreateNote | |
---|---|
Crea una
|
CreateSpeechConfig | |
---|---|
Crea una
|
DeleteDictation | |
---|---|
Borra un
|
DeleteDictationStore | |
---|---|
Borra la
|
DeleteNote | |
---|---|
Borra una
|
DeleteSpeechConfig | |
---|---|
Borra un
|
GetDictation | |
---|---|
Obtienes una
|
GetDictationStore | |
---|---|
Obtiene la
|
GetIamPolicy | |
---|---|
Permite obtener la política de control de acceso de un recurso. Muestra el error NOT_FOUND si el recurso no existe. Muestra una política vacía si el recurso existe, pero no cuenta con un conjunto de políticas. La autorización requiere el permiso de Google IAM
|
GetNote | |
---|---|
Obtienes una
|
GetSpeechConfig | |
---|---|
Obtiene una configuración
|
ListDictationStores | |
---|---|
Muestra una lista de las
|
ListDictations | |
---|---|
Enumera los
|
ListNotes | |
---|---|
Muestra una lista de todas las
|
ListSpeechConfigs | |
---|---|
Muestra una lista de todas las
|
Recognize | |
---|---|
Realiza un reconocimiento de voz asíncrono: recibe resultados a través de la interfaz
|
SetIamPolicy | |
---|---|
Configura la política de control de acceso de un recurso. Reemplaza todas las políticas existentes. La autorización requiere el permiso de Google IAM
|
StreamingRecognize | |
---|---|
Realiza reconocimiento de voz de transmisión bidireccional, lo que permite que el cliente reciba los resultados mientras envía el audio. Este método solo está disponible a través de la API de gRPC (no la de REST). El audio que se envía a través de este método se agrega al
|
TestIamPermissions | |
---|---|
Muestra los permisos que tiene un emisor para un recurso específico. Si el recurso no existe, se mostrará un conjunto vacío de permisos y no un error NOT_FOUND. No se necesita permiso para realizar esta llamada a la API.
|
UpdateDictation | |
---|---|
Actualiza la
|
UpdateDictationStore | |
---|---|
Actualiza la
|
UpdateNote | |
---|---|
Actualiza la
|
UpdateSpeechConfig | |
---|---|
Actualiza la
|
CreateDictationRequest
Crea un registro de Dictation
con muestras de audio y lo agrega al Dictation store
.
Campos | |
---|---|
parent |
El nombre del almacén de dictados al que pertenece este dictado. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
dictation |
Dictado que se creará. |
return_mask |
La máscara de retorno se aplica al recurso de dictados que se muestra. Para ver la definición de |
CreateDictationStoreRequest
Crea una Dictation store
nueva.
Campos | |
---|---|
parent |
El nombre del conjunto de datos al que pertenece este almacén de dictado. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
dictation_store_id |
El ID del almacén de dictado que se creará. La string debe coincidir con la siguiente regex: |
dictation_store |
Información de configuración para este almacén de dictado. |
CreateNoteRequest
Campos | |
---|---|
parent |
Es el nombre del Dictado al que pertenece esta nota. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
note |
Nota que se creará. |
return_mask |
La máscara de actualización se aplica al recurso de nota que se muestra. Para ver la definición de |
CreateSpeechConfigRequest
Crea un registro SpeechConfig
que incluye la configuración de reconocimiento y lo agrega a Dictation store
.
Campos | |
---|---|
parent |
El nombre del almacén de Dictado al que pertenece esta speech_config. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
speech_config |
SpeechConfig |
DeleteDictationRequest
Borra un Dictation
del Dictation store
especificado.
Campos | |
---|---|
name |
El nombre del recurso del Dictado que se borrará. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
DeleteDictationStoreRequest
Borra la Dictation store
especificada.
Campos | |
---|---|
name |
El nombre del recurso del almacén de dictados que se borrará. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
DeleteNoteRequest
Campos | |
---|---|
name |
El nombre del recurso de la nota que se desea borrar. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
DeleteSpeechConfigRequest
Borra una configuración SpeechConfig
del Dictation store
especificado.
Campos | |
---|---|
name |
El nombre del recurso de la configuración SpeechConfig que se borrará. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
Dictado
Es un dictado de audio.
Campos | |
---|---|
name |
Nombre del recurso del Dictado, con el formato |
audio |
Cuando se muestra en la respuesta GetDictation, contiene contenido de audio en representación binaria. No se incluye el campo de audio en las respuestas de CreateDictation y UpdateDictation. |
create_time |
Solo salida. Es la hora en la que se creó el dictado. |
training_consent |
Especifica ALLOW para permitir el uso de este Dictado y sus Notas a fin de mejorar el reconocimiento de voz. Este valor anula el valor del campo training_consent en el DictationStore principal. Si se omite este valor, se usa el valor del campo training_consent en DictationStore. |
DictationStore
Un almacén de dictado que puede almacenar otros recursos relacionados con el dictado, como Dictados, Notas y SpeechConfigs
.
Campos | |
---|---|
name |
Solo salida. Nombre del recurso del almacén de dictado, con el formato |
pubsub_topic |
El tema de Cloud Pub/Sub en el que se publican las notificaciones de cambios en los dictados y las notas. PubsubMessage.Data contendrá el nombre del recurso Dictado o Nota. PubsubMessage.Attributes contendrá un mapa con una string que describe la acción que activó la notificación, p. ej., “action":"CreateDictation”. Las notificaciones solo se envían si el tema no está vacío. Los nombres de temas deben tener permiso para un proyecto. Esta API debe tener permisos de publicador en el tema de Cloud Pub/Sub determinado. Si no tienes los permisos adecuados, las llamadas que envían notificaciones fallan. Proporcionado por el cliente. |
training_consent |
Especifica ALLOW para permitir el uso de recursos en este almacén a fin de mejorar el reconocimiento de voz. Las exclusiones se pueden especificar para cada Dictado mediante el campo Dictation.training_consent, que anulará el valor DictationStore especificado. Esto se considera como INHABILITAR cuando no se especifica. |
labels |
Los pares clave-valor proporcionados por el usuario se usan para organizar los almacenes de dictado. Las claves de etiquetas deben tener entre 1 y 63 caracteres, deben tener una codificación UTF-8 de 128 bytes como máximo y deben cumplir con la siguiente expresión regular de PCRE: [\p{Ll}\p{Lo}][\p{Ll}\p{Lo}\p{N}_-]{0,62} Los valores de las etiquetas son opcionales, deben tener entre 1 y 63 caracteres, tener una codificación UTF-8 de 128 bytes como máximo y deben cumplir con la siguiente expresión regular PCRE: [\p{Ll}\p{Lo}\p{N}_-]{0,63} No se pueden asociar más de 64 etiquetas a una tienda determinada. |
GetDictationRequest
Obtiene un Dictation
del Dictation store
especificado.
Campos | |
---|---|
name |
El nombre del recurso del Dictado que se recuperará. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
GetDictationStoreRequest
Obtienes una Dictation store
.
Campos | |
---|---|
name |
El nombre del recurso del almacén de dictados que se debe obtener. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
GetNoteRequest
Campos | |
---|---|
name |
El nombre del recurso de la nota que se recuperará. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
GetSpeechConfigRequest
Obtiene un registro SpeechConfig
del Dictation store
especificado.
Campos | |
---|---|
name |
El nombre del recurso de la configuración de SpeechConfig que se desea recuperar. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
ListDictationStoresRequest
Muestra una lista de las Dictation stores
en el conjunto de datos dado.
Campos | |
---|---|
parent |
Nombre del conjunto de datos. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
page_size |
Límite para la cantidad de almacenes de dictados que se mostrarán en una sola respuesta. Si es cero, se usa el tamaño de página predeterminado de 100. |
page_token |
El valor next_page_token que se muestra de una solicitud de lista anterior, si existe. |
filter |
Restringe los almacenes que se muestran a los que coincidan con un filtro. Sintaxis: https://cloud.google.com/appengine/docs/standard/python/search/query_strings. Solo se admite el filtrado de etiquetas, por ejemplo |
ListDictationStoresResponse
Muestra una lista de las Dictation stores
en el conjunto de datos dado.
Campos | |
---|---|
dictation_stores[] |
Las tiendas Dictados que se muestran. No habrá más almacenes de Dictado que el valor de page_size en la solicitud. |
next_page_token |
Token para recuperar la siguiente página de resultados o vaciar si no hay más resultados en la lista. |
ListDictationsRequest
Enumera los Dictations
en el Dictation store
especificado.
Campos | |
---|---|
parent |
Nombre del almacén de dictados desde el que se recuperará desde los dictados. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
page_size |
Limita la cantidad de dictados que se mostrarán en una sola respuesta. Si es cero, se usa el tamaño de página predeterminado de 100. |
page_token |
El valor next_page_token que se muestra de una solicitud de lista anterior, si existe. |
filter |
Restringe los dictados que se muestran a los que coinciden con un filtro. Sintaxis: https://cloud.google.com/appengine/docs/standard/python/search/query_strings. Los campos y las funciones disponibles para filtrar son los siguientes: - use_for_speech_training |
ListDictationsResponse
Enumera los Dictations
en el Dictation store
especificado.
Campos | |
---|---|
dictation_names[] |
Los nombres de dictados que se muestran. No habrá más valores que el valor de page_size en la solicitud. |
next_page_token |
Token para recuperar la siguiente página de resultados o vaciar si no hay más resultados en la lista. |
ListNotesRequest
Campos | |
---|---|
parent |
Nombre del dictado del que se recuperarán las notas. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
page_size |
Limita la cantidad de notas que se mostrarán en una sola respuesta. Si es cero, se usa el tamaño de página predeterminado de 100. |
page_token |
El valor next_page_token que se muestra de una solicitud de lista anterior, si existe. |
filter |
Restringe las notas que se muestran a los que coinciden con un filtro. Sintaxis: https://cloud.google.com/appengine/docs/standard/python/search/query_strings. Los campos y las funciones disponibles para filtrar son los siguientes:- type - origin - speech_config_name - speaker_external_id - speaker_human_name |
ListNotesResponse
Campos | |
---|---|
note_names[] |
Los nombres de las notas que se muestran. No habrá más valores que el valor de page_size en la solicitud. |
next_page_token |
Token para recuperar la siguiente página de resultados o vaciar si no hay más resultados en la lista. |
ListSpeechConfigsRequest
Enumera los SpeechConfigs
en el Dictation store
especificado.
Campos | |
---|---|
parent |
Nombre del almacén de dictados desde el que se recuperará SpeechConfigs. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
page_size |
Limita la cantidad de SpeechConfigs para mostrar en una sola respuesta. Si es cero, se usa el tamaño de página predeterminado de 100. |
page_token |
El valor next_page_token que se muestra de una solicitud de lista anterior, si existe. |
filter |
Restringe las SpeechConfigs a aquellos que coinciden con un filtro. Sintaxis: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Los campos y las funciones disponibles para filtrar son los siguientes: speaker_external_id - speaker_human_name |
ListSpeechConfigsResponse
Enumera los SpeechConfigs
en el Dictation store
especificado.
Campos | |
---|---|
speech_config_names[] |
Los nombres de SpeechConfigs que se muestran. No habrá más valores que el valor de page_size en la solicitud. |
next_page_token |
Token para recuperar la siguiente página de resultados o vaciar si no hay más resultados en la lista. |
Nota
La nota puede representar los resultados del reconocimiento de voz o se puede ingresar como fuente de información verídica para facilitar el entrenamiento adicional de los modelos de reconocimiento de voz y el almacenamiento de las transcripciones finales corregidas.
Campos | |
---|---|
name |
El nombre del recurso de la nota, con el formato |
speech_config_name |
SpeechConfig se usa para producir esta nota con el formato |
type |
Tipo de nota. |
origin |
El origen de los resultados de reconocimiento, p. ej., un modelo en particular que se usó. |
speech_recognition_results[] |
Una lista secuencial de los resultados de transcripción que corresponden a partes secuenciales de audio, como partes de audio de interlocutores que se turnan para hablar en un diálogo. |
create_time |
La hora en que se creó la nota. La configura el servidor. |
Tipo
Tipo de nota.
Enums | |
---|---|
TYPE_UNSPECIFIED |
Un tipo que no es válido o no se especificó. |
VERBATIM |
Una nota literal que se puede usar como "verdad fundamental" para el audio de dictado. |
CORRECTION |
Correcciones sobre la nota generada por una llamada a Recognize. |
DRAFT |
La nota de borrador que aún se puede actualizar antes de generar una nota final. |
FINAL |
La nota final aprobada. |
AUTO_RECOGNIZED |
Solo salida. Nota generada por una llamada a Recognize. No se puede crear una nota con el tipo AUTO_RECOGNIZED con CreateNote. No se puede actualizar una nota con el tipo AUTO_RECOGNIZED con UpdateNote. No se puede actualizar una nota con UpdateNote para tener el tipo AUTO_RECOGNIZED. |
RecognitionAudio
Contiene datos de audio en la codificación especificada en RecognitionConfig
. Se debe proporcionar content
o uri
. Si se proporcionan ambos o ninguno, se mostrará google.rpc.Code.INVALID_ARGUMENT
. Consulta los límites de audio.
Campos | ||
---|---|---|
Campo de unión audio_source . Es la fuente de audio, que es contenido intercalado o un URI de Cloud Storage. audio_source puede ser solo uno de los siguientes: |
||
content |
Son los bytes de datos de audio codificados como se especifica en |
|
uri |
URI que apunta a un archivo que contiene bytes de datos de audio como se especifica en |
RecognitionConfig
Proporciona información al reconocedor que especifica cómo procesar la solicitud.
Campos | |
---|---|
encoding |
Codifica datos de audio enviados en todos los mensajes de |
sample_rate_hertz |
Tasa de muestreo en hercios de los datos de audio que se enviaron en todos los mensajes |
audio_channel_count |
La cantidad de canales en los datos de audio de entrada. SOLO configura esta opción para el reconocimiento MULTICANAL. Los valores válidos para LINEAR16 y FLAC son |
enable_separate_recognition_per_channel |
Debe configurarse como “true” y audio_channel_count > 1 para que cada canal se reconozca por separado. El resultado del reconocimiento contendrá un campo channel_tag para indicar a qué canal pertenece ese resultado. Si no es “true”, solo reconoceremos el primer canal. |
language_code |
El idioma del audio proporcionado como una etiqueta de idioma BCP-47. Ejemplo: “en_US”. Consulta Idiomas admitidos para obtener una lista de los códigos de idioma que se admiten por el momento. |
context_phrases[] |
Una lista de strings que contienen palabras y frases “sugerencias” para que el reconocimiento de voz las reconozca. Esto se puede usar para mejorar la precisión de palabras y frases específicas, por ejemplo, si el usuario suele decir comandos específicos. También se puede usar para agregar palabras adicionales al vocabulario del reconocedor. |
model |
Qué modelo debes seleccionar para la solicitud determinada Si no se especifica un modelo de forma explícita, se usa el valor predeterminado “default”. |
AudioEncoding
La codificación de los datos de audio que se envía en la solicitud.
Todas las codificaciones admiten solo audio de 1 canal (mono).
Para obtener mejores resultados, la fuente de audio debe capturarse y transmitirse con una codificación sin pérdida (FLAC
o LINEAR16
). La precisión del reconocimiento de voz se puede reducir si se usan códecs con pérdida para capturar o transmitir audio, especialmente si hay ruido de fondo. Los códecs con pérdida incluyen MULAW
, AMR
, AMR_WB
, OGG_OPUS
y SPEEX_WITH_HEADER_BYTE
.
Los formatos de archivo de audio FLAC
y WAV
incluyen un encabezado que describe el contenido de audio incluido. Puedes solicitar el reconocimiento de archivos WAV
que contengan audio codificado en LINEAR16
o MULAW
. Si envías el formato de archivo de audio FLAC
o WAV
en tu solicitud, no necesitas especificar un AudioEncoding
; el formato de codificación de audio se determina a partir del encabezado del archivo. Si especificas un AudioEncoding
cuando envías audio FLAC
o WAV
, la configuración de codificación debe coincidir con la codificación que se describe en el encabezado de audio. de lo contrario, la solicitud muestra un código de error google.rpc.Code.INVALID_ARGUMENT
.
Enums | |
---|---|
ENCODING_UNSPECIFIED |
No especificado. |
LINEAR16 |
Son las muestras de little-endian de 16 bits firmadas y sin comprimir (PCM lineal). |
FLAC |
FLAC (códec de audio gratuito sin pérdida) es la codificación recomendada debido a que no tiene pérdida, por lo que el reconocimiento no se ve comprometido, y requiere solo la mitad del ancho de banda de LINEAR16 . La codificación de transmisión FLAC admite muestras de 16 y 24 bits. Sin embargo, no todos los campos en STREAMINFO son compatibles. |
MULAW |
Las muestras de 8 bits que comprimen las muestras de audio de 14 bits mediante la ley PCMU/mu-law de G.711. |
AMR |
El códec adaptable de banda estrecha de varias tasas. sample_rate_hertz debe ser 8,000. |
AMR_WB |
El códec adaptable de banda ancha de varias tasas. sample_rate_hertz debe ser 16,000. |
OGG_OPUS |
Los marcos de audio codificados en Opus en un contenedor Ogg (OggOpus). sample_rate_hertz debe ser de 8,000, 12,000, 16,000, 24,000 o 48,000. |
SPEEX_WITH_HEADER_BYTE |
Aunque no se recomienda el uso de codificaciones con pérdidas, se prefiere OGG_OPUS por sobre la codificación Speex si se requiere una codificación de tasa de bits muy baja. La codificación Speex compatible con la API de Cloud Speech tiene un byte de encabezado en cada bloque, como en el tipo de MIME audio/x-speex-with-header-byte . Es una variante de la codificación Speex RTP definida en RFC 5574. La transmisión es una secuencia de bloques, un bloque por paquete RTP. Cada bloque comienza con un byte que contiene la longitud del bloque, en bytes, seguido de uno o más marcos de datos Speex, que se rellenan con un número entero de bytes (octetos) como se especifica en RFC 5574. En otras palabras, cada encabezado RTP se reemplaza por un solo byte que contiene la longitud del bloque. Solo se admite banda ancha de Speex. sample_rate_hertz debe ser 16,000. |
RecognizeRequest
Envía un Dictation
al motor de reconocimiento de voz. Crea un registro Note
y lo agrega a Dictation
.
Campos | |
---|---|
name |
Es el nombre del recurso del dictado que deseas transcribir. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
speech_config_name |
La configuración de SpeechConfig que se usará en la solicitud de reconocimiento. La configuración de voz se puede proporcionar como una ruta de acceso de REST completa: La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
enable_voice_actions |
Determina si el motor de reconocimiento debe buscar acciones de voz. |
RecognizeResponse
Respuesta final del método Recognize en un Dictation
. Esta estructura se incluirá en google.longrunning.Operation.result.response
para describir el resultado detallado de la ejecución de Recognize
. Se incluirá solo cuando finalice la ejecución.
Campos | |
---|---|
note_name |
El nombre del recurso de la |
RecognizedAction
La acción de voz que se detecta durante el reconocimiento.
Las acciones posibles se muestran en una lista en la siguiente tabla.
Acción de voz | RecognizedAction |
Selección de texto P. ej., seleccionar la hemoglobina para el paciente. |
{ "action_name": "TextSelection", "confidence": 1.0, "param_results": [ { "parameter_name": "FromText", "value": "hemoglobin" }, { "parameter_name": "ToText", "value": "patient" } ] } |
Quitar selección de texto P. ej., anular la selección |
{ "action_name": "RemoveSelection", "confidence": 1.0 } |
Borrar el último enunciado o la oración actual P. ej., deshacer eso |
{ "action_name": "Undo", "confidence": 0.8 } |
Insertar línea nueva P. ej, una línea nueva |
{ "action_name": "NewLine", "confidence": 1.0 } |
Insertar párrafo nuevo P. ej., párrafo nuevo |
{ "action_name": "NewParagraph", "confidence": 1.0 } |
Mover el cursor a la palabra anterior P. ej., insertar antes de la hemoglobina |
{ "action_name": "InsertAt", "confidence": 0.5, "param_results": [ { "parameter_name": "InsertLocation", "value": "before" }, { "parameter_name": "InsertTarget", "value": "hemoglobin" } ] } |
Mover el cursor P. ej., ir al final de la oración. |
{ "action_name": "MoveCursor", "confidence": 0.6, "param_results": [ { "parameter_name": "MoveLocation", "value": "end" }, { "parameter_name": "MoveTarget", "value": "sentence" } ] } |
Crea una lista en la posición del cursor P. ej., insertar el número 1 de presión sanguínea baja |
{ "action_name": "CreateList", "confidence": 0.6, "param_results": [ { "parameter_name": "ListNum", "value": "1" }, { "parameter_name": "InsertText", "value": "low pb" } ] } |
Campos | |
---|---|
action_name |
Nombre de la acción detectada |
confidence |
La estimación de confianza entre 0.0 y 1.0. La cantidad más alta indica una mayor probabilidad de que esta sea la acción de voz especificada. |
params[] |
Lista de los parámetros para la acción detectada. |
RecognizedActionParameter
Representa un parámetro de acción.
Campos | |
---|---|
parameter_name |
El nombre del parámetro de acción, p. ej., |
value |
El valor del parámetro de acción, p. ej., |
SpeechConfig
Registro de configuración para admitir el entrenamiento y la adaptación. Los oradores humanos reales pueden compartir una configuración de SpeechConfig o cada uno tener configuraciones independientes.
Campos | |
---|---|
name |
Nombre del recurso de la configuración, con el formato |
recognition_config |
Proporciona información al reconocedor que especifica cómo procesar la solicitud. |
speaker_external_id |
ID en un sistema externo que se puede usar para seleccionar una configuración específica. |
speaker_human_name |
Nombre humano cuando se proporciona. |
SpeechRecognitionResult
Un resultado del reconocimiento de voz que corresponde a una parte del audio.
Campos | |
---|---|
transcript |
Solo salida. Texto de transcripción que representa las palabras que dijo el usuario. |
confidence |
Solo salida. La estimación de confianza entre 0.0 y 1.0. Un número más alto indica una mayor probabilidad estimada de que las palabras reconocidas sean correctas. No se garantiza que este campo sea preciso. Los usuarios no deben confiar en que siempre se proporcione. El valor predeterminado de 0.0 es un valor sentinel que indica que no se estableció |
words[] |
Solo salida. Una lista de información específica de cada palabra reconocida. |
channel_tag |
En el caso del audio multicanal, este es el número de canal correspondiente al resultado reconocido para el audio de ese canal. En el caso de que audio_channel_count = N, sus valores de salida pueden variar de “1” a “N”. |
action |
Se detectó una acción de voz durante el reconocimiento. |
StreamingRecognitionResult
Es un resultado del reconocimiento de voz de transmisión que corresponde a una parte del audio que se procesa en el momento.
Campos | |
---|---|
speech_recognition_result |
Solo salida. Resultados incrementales del reconocimiento de voz. Los resultados pueden cambiar, siempre y cuando |
is_final |
Solo salida. Si es |
stability |
Solo salida. Una estimación de la probabilidad de que el reconocedor no cambie su suposición sobre este resultado provisional. Los valores van de 0.0 (completamente inestable) a 1.0 (completamente estable). Este campo solo se proporciona para los resultados provisionales ( |
StreamingRecognizeRequest
Es el mensaje de nivel superior a la que envía el cliente para el método [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] de [StreamingRecognize]. Se envían varios mensajes StreamingRecognizeRequest
. El primer mensaje debe contener un mensaje stream_setup_info
y no debe contener datos audio_content
. Todos los mensajes posteriores deben contener datos audio_content
y no deben contener un mensaje stream_setup_info
.
Campos | ||
---|---|---|
Campo de unión streaming_request . Es la solicitud de transmisión, que es información de configuración de transmisión o contenido de audio. streaming_request puede ser solo uno de los siguientes: |
||
stream_setup_info |
Proporciona información al reconocedor que especifica cómo procesar la solicitud. El primer mensaje |
|
audio_content |
Los datos de audio que se reconocerán. Los fragmentos secuenciales de datos de audio deben enviarse en mensajes |
StreamingRecognizeResponse
StreamingRecognizeResponse
es el único mensaje que muestra [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] de [StreamingRecognize]. Una serie de cero o más mensajes StreamingRecognizeResponse
se transmiten al cliente. Si no hay audio reconocible y single_utterance
está configurado como falso, no se transmitirá ningún mensaje al cliente.
Este es un ejemplo de una serie de StreamingRecognizeResponse
que se pueden mostrar mientras se procesa el audio:
resultados {speech_recognition_result {transcript: “tube”} estabilidad: 0.01}
resultados {speech_recognition_result {transcript: “to be a”} stability: 0.01}
resultados {speech_recognition_result {transcript: “to be”} stability: 0.9} resultados {speech_recognition_result {transcript: “or not to be”} stability: 0.01}
resultados {speech_recognition_result {transcript: “to be or not to be” confidence: 0.92 } is_final: true}
resultados {speech_recognition_result {transcript: “that's”} stability: 0.01}
resultados {speech_recognition_result {transcript: “that is”} stability: 0.9} resultados {speech_recognition_result {transcript: " the question"} stability: 0.01}
resultados {speech_recognition_result { transcript: “that is the question” confidence 0.98 } is_final: true}
Notas:
Solo dos de las respuestas (n.º 4 y n.º 7) contienen resultados finales, como lo indica el campo
is_final: true
. La concatenación de las respuestas genera la transcripción completa: “ser o no ser esa es la cuestión”.Las otras respuestas contienen
results
provisionales. El n.º 3 y el n.º 6 contienen dosresults
provisionales: la primera parte tiene una alta estabilidad y es menos probable que cambie, la segunda parte tiene baja estabilidad y es muy probable que cambie.Los valores
stability
yconfidence
específicos que se muestran arriba solo tienen fines ilustrativos. Los valores reales pueden variar.En cada respuesta, solo se establecerá uno de estos campos:
error
,speech_event_type
o uno o más (repetidos)results
.
Campos | |
---|---|
error |
Solo salida. Estado de error asociado con la operación de transmisión, si corresponde. |
results[] |
Solo salida. Esta lista repetida contiene cero o más resultados que corresponden a las partes consecutivas del audio que se procesa. Contiene cero o un resultado de |
speech_event_type |
Solo salida. Indica el tipo de evento de voz. |
SpeechEventType
Indica el tipo de evento de voz.
Enums | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Indica que no se especificó ningún evento de voz. |
END_OF_SINGLE_UTTERANCE |
Este evento indica que el servidor detectó el final del enunciado de voz del usuario y que no espera que siga hablando. Por lo tanto, el servidor no procesará audio adicional (aunque puede que muestre resultados adicionales de forma posterior). El cliente debe dejar de enviar datos de audio adicionales, cerrar de forma parcial la conexión de gRPC y esperar cualquier resultado adicional hasta que el servidor también la cierre. Este evento solo se envía si single_utterance se estableció en true y no se usa de otra manera. |
TrainingConsent
Especifica el tipo de consentimiento otorgado para mejorar el reconocimiento de voz.
Enums | |
---|---|
TRAINING_CONSENT_UNSPECIFIED |
No se especificó ningún consentimiento. |
ALLOW |
Consentimiento para el entrenamiento. |
DISALLOW |
No hay consentimiento para el entrenamiento. |
UpdateDictationRequest
Solicitud para actualizar el Dictation
determinado.
Campos | |
---|---|
dictation |
El recurso de dictado que actualiza el recurso en el servidor. Solo los campos enumerados en update_mask serán obligatorios o se aplicarán. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
update_mask |
La máscara de actualización se aplica al recurso. Para ver la definición de |
UpdateDictationStoreRequest
Actualiza la Dictation store
.
Campos | |
---|---|
dictation_store |
El recurso del almacén de dictado que actualiza el recurso en el servidor. Solo se aplicarán los campos que se enumeran en update_mask. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
update_mask |
La máscara de actualización se aplica al recurso. Para ver la definición de |
UpdateNoteRequest
Solicitud a fin de actualizar el Note
determinado, p. ej., para actualizar SpeechConfig.
Campos | |
---|---|
note |
El recurso de nota que actualiza el recurso en el servidor. Solo los campos enumerados en update_mask serán obligatorios o se aplicarán. No se puede actualizar una nota con el tipo AUTO_RECOGNIZED. No se puede actualizar una nota para que contenga el tipo AUTO_RECOGNIZED. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
update_mask |
La máscara de actualización se aplica al recurso. Para ver la definición de |
UpdateSpeechConfigRequest
Solicitud a fin de actualizar la SpeechConfig
determinado, p. ej., para actualizar el idioma.
Campos | |
---|---|
speech_config |
El recurso SpeechConfig que actualiza el recurso en el servidor. Solo los campos enumerados en update_mask serán obligatorios o se aplicarán. La autorización requiere el siguiente permiso de Google IAM en el recurso especificado
|
update_mask |
La máscara de actualización se aplica al recurso. Para ver la definición de |
WordInfo
Información específica de las palabras reconocidas.
Campos | |
---|---|
start_time_offset |
Solo salida. Compensación horaria relacionada con el comienzo del audio y que corresponde al inicio de la palabra hablada. Este campo solo se establece si |
end_time_offset |
Solo salida. Compensación horaria relacionada con el comienzo del audio y que corresponde al final de la palabra hablada. Este campo solo se establece si |
word |
Solo salida. La palabra correspondiente a este conjunto de información. |
confidence |
Solo salida. La estimación de confianza entre 0.0 y 1.0. Un número más alto indica una mayor probabilidad estimada de que las palabras reconocidas sean correctas. No se garantiza que este campo sea preciso. Los usuarios no deben confiar en que siempre se proporcione. El valor predeterminado de 0.0 es un valor sentinel que indica que no se estableció |