Empaqueta google.cloud.heanscare.v1alpha2.diction

Index

DictationService

Un servicio para controlar solicitudes de dictado médico. Los datos de dictado se almacenan junto con otras formas de atención médica en conjuntos de datos. Cada conjunto de datos puede tener cero o más almacenes de datos de modo, p. ej., dictation stores. El audio de dictado (Dictations) y los resultados transcritos (Notes) son los dos tipos de datos principales que se almacenaron en los almacenes de dictado. SpeechConfigs codifican los parámetros que se usan para el reconocimiento de voz automático.

CreateDictation

rpc CreateDictation(CreateDictationRequest) returns (Dictation)

Crea un nuevo registro de Dictation. Persiste las muestras de audio. Es válido crear objetos de dictados que representen el mismo audio más de una vez, ya que este servicio asigna un ID único a cada objeto.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

CreateDictationStore

rpc CreateDictationStore(CreateDictationStoreRequest) returns (DictationStore)

Crea un Dictation store nuevo dentro del conjunto de datos superior. El intento de crear un almacén de dictado con el mismo ID que un almacén existente fallará con el error ALREADY_EXISTS.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

CreateNote

rpc CreateNote(CreateNoteRequest) returns (Note)

Crea una Note nueva. La nota se agrega al almacén de dictados y se asocia con el dictado. La nota se puede completar de forma parcial, los resultados se pueden completar más tarde como resultado de una llamada a UpdateNote. Se puede asociar más de una nota con el mismo Dictation que representa los resultados del reconocimiento de voz o con la transcripción manual realizada por un transcriptor humano. Es válido crear objetos de Nota con el mismo contenido más de una vez, ya que este servicio asigna un ID único a cada objeto.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

CreateSpeechConfig

rpc CreateSpeechConfig(CreateSpeechConfigRequest) returns (SpeechConfig)

Crea una SpeechConfig nueva. SpeechConfig se agrega al almacén de dictado y se asocia con una nota. SpeechConfig se puede completar de forma parcial, los resultados se pueden completar más tarde como resultado de una llamada a UpdateSpeechConfig. Es válido crear objetos SpeechConfig con el mismo contenido más de una vez, ya que este servicio asigna el ID único a cada objeto.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

DeleteDictation

rpc DeleteDictation(DeleteDictationRequest) returns (Empty)

Borra un Dictation o muestra NOT_FOUND si no existe.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

DeleteDictationStore

rpc DeleteDictationStore(DeleteDictationStoreRequest) returns (Empty)

Borra la Dictation store especificada y quita todos los dictados que contiene.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

DeleteNote

rpc DeleteNote(DeleteNoteRequest) returns (Empty)

Borra una Note existente.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

DeleteSpeechConfig

rpc DeleteSpeechConfig(DeleteSpeechConfigRequest) returns (Empty)

Borra un SpeechConfig o muestra NOT_FOUND si no existe.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

GetDictation

rpc GetDictation(GetDictationRequest) returns (Dictation)

Obtienes una Dictation.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

GetDictationStore

rpc GetDictationStore(GetDictationStoreRequest) returns (DictationStore)

Obtiene la Dictation store especificada o muestra NOT_FOUND si esta no existe.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

GetIamPolicy

rpc GetIamPolicy(GetIamPolicyRequest) returns (Policy)

Permite obtener la política de control de acceso de un recurso. Muestra el error NOT_FOUND si el recurso no existe. Muestra una política vacía si el recurso existe, pero no cuenta con un conjunto de políticas.

La autorización requiere el permiso de Google IAM healthcare.DictationStores.getIamPolicy en el recurso especificado.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

GetNote

rpc GetNote(GetNoteRequest) returns (Note)

Obtienes una Note.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

GetSpeechConfig

rpc GetSpeechConfig(GetSpeechConfigRequest) returns (SpeechConfig)

Obtiene una configuración SpeechConfig.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

ListDictationStores

rpc ListDictationStores(ListDictationStoresRequest) returns (ListDictationStoresResponse)

Muestra una lista de las Dictation stores en el conjunto de datos dado.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

ListDictations

rpc ListDictations(ListDictationsRequest) returns (ListDictationsResponse)

Enumera los Dictations en el Dictation store dado.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

ListNotes

rpc ListNotes(ListNotesRequest) returns (ListNotesResponse)

Muestra una lista de todas las Notes en la Dictation determinada que admite el filtrado.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

ListSpeechConfigs

rpc ListSpeechConfigs(ListSpeechConfigsRequest) returns (ListSpeechConfigsResponse)

Muestra una lista de todas las SpeechConfigs en la Dictation store determinada que admite el filtrado.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

Recognize

rpc Recognize(RecognizeRequest) returns (Operation)

Realiza un reconocimiento de voz asíncrono: recibe resultados a través de la interfaz google.longrunning.Operations. Muestra un Operation.error o una Operation.response que contiene un mensaje RecognizeResponse (en cuyo caso, la nota cuyo nombre se muestra en RecognizeResponse se convierte en un elemento secundario de Dictation). El tipo de campo metadata es OperationMetadata.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

SetIamPolicy

rpc SetIamPolicy(SetIamPolicyRequest) returns (Policy)

Configura la política de control de acceso de un recurso. Reemplaza todas las políticas existentes.

La autorización requiere el permiso de Google IAM healthcare.DictationStores.setIamPolicy en el recurso especificado.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

StreamingRecognize

rpc StreamingRecognize(StreamingRecognizeRequest) returns (StreamingRecognizeResponse)

Realiza reconocimiento de voz de transmisión bidireccional, lo que permite que el cliente reciba los resultados mientras envía el audio. Este método solo está disponible a través de la API de gRPC (no la de REST). El audio que se envía a través de este método se agrega al Dictation especificado en la solicitud. El Dictado no debe contener el audio antes de esta llamada. Ten en cuenta que se puede crear un dictado sin audio si no se especifica el campo audio en CreateDictationRequest cuando se crea el Dictado. Los resultados del reconocimiento que se envían al cliente se almacenan en una Note que es un elemento secundario del Dictado especificado en la solicitud.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

TestIamPermissions

rpc TestIamPermissions(TestIamPermissionsRequest) returns (TestIamPermissionsResponse)

Muestra los permisos que tiene un emisor para un recurso específico. Si el recurso no existe, se mostrará un conjunto vacío de permisos y no un error NOT_FOUND.

No se necesita permiso para realizar esta llamada a la API.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

UpdateDictation

rpc UpdateDictation(UpdateDictationRequest) returns (Dictation)

Actualiza la Dictation.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

UpdateDictationStore

rpc UpdateDictationStore(UpdateDictationStoreRequest) returns (DictationStore)

Actualiza la Dictation store especificada.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

UpdateNote

rpc UpdateNote(UpdateNoteRequest) returns (Note)

Actualiza la Note.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

UpdateSpeechConfig

rpc UpdateSpeechConfig(UpdateSpeechConfigRequest) returns (SpeechConfig)

Actualiza la SpeechConfig.

Alcances de autorización

Se necesita uno de los siguientes alcances de OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

CreateDictationRequest

Crea un registro de Dictation con muestras de audio y lo agrega al Dictation store.

Campos
parent

string

El nombre del almacén de dictados al que pertenece este dictado.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado parent:

  • healthcare.dictations.create

dictation

Dictation

Dictado que se creará.

return_mask

FieldMask

La máscara de retorno se aplica al recurso de dictados que se muestra. Para ver la definición de FieldMask, consulta https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask.

CreateDictationStoreRequest

Crea una Dictation store nueva.

Campos
parent

string

El nombre del conjunto de datos al que pertenece este almacén de dictado.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado parent:

  • healthcare.dictationStores.create

dictation_store_id

string

El ID del almacén de dictado que se creará. La string debe coincidir con la siguiente regex: [\p{L}\p{N}_\-\.]{1,256}.

dictation_store

DictationStore

Información de configuración para este almacén de dictado.

CreateNoteRequest

Crea un registro Note y lo agrega a Dictation.

Campos
parent

string

Es el nombre del Dictado al que pertenece esta nota.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado parent:

  • healthcare.dictations.update

note

Note

Nota que se creará.

return_mask

FieldMask

La máscara de actualización se aplica al recurso de nota que se muestra. Para ver la definición de FieldMask, consulta https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask.

CreateSpeechConfigRequest

Crea un registro SpeechConfig que incluye la configuración de reconocimiento y lo agrega a Dictation store.

Campos
parent

string

El nombre del almacén de Dictado al que pertenece esta speech_config.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado parent:

  • healthcare.speechConfigs.create

speech_config

SpeechConfig

SpeechConfig

DeleteDictationRequest

Borra un Dictation del Dictation store especificado.

Campos
name

string

El nombre del recurso del Dictado que se borrará.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado name:

  • healthcare.dictations.delete

DeleteDictationStoreRequest

Borra la Dictation store especificada.

Campos
name

string

El nombre del recurso del almacén de dictados que se borrará.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado name:

  • healthcare.dictationStores.delete

DeleteNoteRequest

Borra una Note del Dictation especificado.

Campos
name

string

El nombre del recurso de la nota que se desea borrar.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado name:

  • healthcare.dictations.update

DeleteSpeechConfigRequest

Borra una configuración SpeechConfig del Dictation store especificado.

Campos
name

string

El nombre del recurso de la configuración SpeechConfig que se borrará.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado name:

  • healthcare.speechConfigs.delete

Dictado

Es un dictado de audio.

Campos
name

string

Nombre del recurso del Dictado, con el formato projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/dictations/{dictation_id}. El servidor lo asigna.

audio

RecognitionAudio

Cuando se muestra en la respuesta GetDictation, contiene contenido de audio en representación binaria. No se incluye el campo de audio en las respuestas de CreateDictation y UpdateDictation.

create_time

Timestamp

Solo salida. Es la hora en la que se creó el dictado.

DictationStore

Un almacén de dictado que puede almacenar otros recursos relacionados con el dictado, como Dictados, Notas y SpeechConfigs.

Campos
name

string

Solo salida. Nombre del recurso del almacén de dictado, con el formato projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}.

pubsub_topic

string

El tema de Cloud Pub/Sub en el que se publican las notificaciones de cambios en los dictados y las notas. PubsubMessage.Data contendrá el nombre del recurso Dictado o Nota. PubsubMessage.Attributes contendrá un mapa con una string que describe la acción que activó la notificación, p. ej., “action":"CreateDictation”. Las notificaciones solo se envían si el tema no está vacío. Los nombres de temas deben tener permiso para un proyecto. Esta API debe tener permisos de publicador en el tema de Cloud Pub/Sub determinado. Si no tienes los permisos adecuados, las llamadas que envían notificaciones fallan. Proporcionado por el cliente.

labels

map<string, string>

Los pares clave-valor proporcionados por el usuario se usan para organizar los almacenes de dictado.

Las claves de etiquetas deben tener entre 1 y 63 caracteres, deben tener una codificación UTF-8 de 128 bytes como máximo y deben cumplir con la siguiente expresión regular de PCRE: [\p{Ll}\p{Lo}][\p{Ll}\p{Lo}\p{N}_-]{0,62}

Los valores de las etiquetas son opcionales, deben tener entre 1 y 63 caracteres, tener una codificación UTF-8 de 128 bytes como máximo y deben cumplir con la siguiente expresión regular PCRE: [\p{Ll}\p{Lo}\p{N}_-]{0,63}

No se pueden asociar más de 64 etiquetas a una tienda determinada.

GetDictationRequest

Obtiene un Dictation del Dictation store especificado.

Campos
name

string

El nombre del recurso del Dictado que se recuperará.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado name:

  • healthcare.dictations.get

GetDictationStoreRequest

Obtienes una Dictation store.

Campos
name

string

El nombre del recurso del almacén de dictados que se debe obtener.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado name:

  • healthcare.dictationStores.get

GetNoteRequest

Obtiene un Note del Dictation especificado.

Campos
name

string

El nombre del recurso de la nota que se recuperará.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado name:

  • healthcare.dictations.get

GetSpeechConfigRequest

Obtiene un registro SpeechConfig del Dictation store especificado.

Campos
name

string

El nombre del recurso de la configuración de SpeechConfig que se desea recuperar.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado name:

  • healthcare.speechConfigs.get

ListDictationStoresRequest

Muestra una lista de las Dictation stores en el conjunto de datos dado.

Campos
parent

string

Nombre del conjunto de datos.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado parent:

  • healthcare.dictationStores.list

page_size

int32

Límite para la cantidad de almacenes de dictados que se mostrarán en una sola respuesta. Si es cero, se usa el tamaño de página predeterminado de 100.

page_token

string

El valor next_page_token que se muestra de una solicitud de lista anterior, si existe.

filter

string

Restringe los almacenes que se muestran a los que coincidan con un filtro. Sintaxis: https://cloud.google.com/appengine/docs/standard/python/search/query_strings. Solo se admite el filtrado de etiquetas, por ejemplo labels.key=value.

ListDictationStoresResponse

Muestra una lista de las Dictation stores en el conjunto de datos dado.

Campos
dictation_stores[]

DictationStore

Las tiendas Dictados que se muestran. No habrá más almacenes de Dictado que el valor de page_size en la solicitud.

next_page_token

string

Token para recuperar la siguiente página de resultados o vaciar si no hay más resultados en la lista.

ListDictationsRequest

Enumera los Dictations en el Dictation store especificado.

Campos
parent

string

Nombre del almacén de dictados desde el que se recuperará desde los dictados.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado parent:

  • healthcare.dictations.list

page_size

int32

Limita la cantidad de dictados que se mostrarán en una sola respuesta. Si es cero, se usa el tamaño de página predeterminado de 100.

page_token

string

El valor next_page_token que se muestra de una solicitud de lista anterior, si existe.

filter

string

Restringe los dictados que se muestran a los que coinciden con un filtro. Sintaxis: https://cloud.google.com/appengine/docs/standard/python/search/query_strings. Los campos y las funciones disponibles para filtrar son los siguientes: - use_for_speech_training

ListDictationsResponse

Enumera los Dictations en el Dictation store especificado.

Campos
dictation_names[]

string

Los nombres de dictados que se muestran. No habrá más valores que el valor de page_size en la solicitud.

next_page_token

string

Token para recuperar la siguiente página de resultados o vaciar si no hay más resultados en la lista.

ListNotesRequest

Enumera los Notes en el Dictation especificado.

Campos
parent

string

Nombre del dictado del que se recuperarán las notas.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado parent:

  • healthcare.dictations.get

page_size

int32

Limita la cantidad de notas que se mostrarán en una sola respuesta. Si es cero, se usa el tamaño de página predeterminado de 100.

page_token

string

El valor next_page_token que se muestra de una solicitud de lista anterior, si existe.

filter

string

Restringe las notas que se muestran a los que coinciden con un filtro. Sintaxis: https://cloud.google.com/appengine/docs/standard/python/search/query_strings. Los campos y las funciones disponibles para filtrar son los siguientes:- type - origin - speech_config_name - speaker_external_id - speaker_human_name

ListNotesResponse

Enumera los Notes en el Dictation especificado.

Campos
note_names[]

string

Los nombres de las notas que se muestran. No habrá más valores que el valor de page_size en la solicitud.

next_page_token

string

Token para recuperar la siguiente página de resultados o vaciar si no hay más resultados en la lista.

ListSpeechConfigsRequest

Enumera los SpeechConfigs en el Dictation store especificado.

Campos
parent

string

Nombre del almacén de dictados desde el que se recuperará SpeechConfigs.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado parent:

  • healthcare.speechConfigs.list

page_size

int32

Limita la cantidad de SpeechConfigs para mostrar en una sola respuesta. Si es cero, se usa el tamaño de página predeterminado de 100.

page_token

string

El valor next_page_token que se muestra de una solicitud de lista anterior, si existe.

filter

string

Restringe las SpeechConfigs a aquellos que coinciden con un filtro. Sintaxis: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Los campos y las funciones disponibles para filtrar son los siguientes: speaker_external_id - speaker_human_name

ListSpeechConfigsResponse

Enumera los SpeechConfigs en el Dictation store especificado.

Campos
speech_config_names[]

string

Los nombres de SpeechConfigs que se muestran. No habrá más valores que el valor de page_size en la solicitud.

next_page_token

string

Token para recuperar la siguiente página de resultados o vaciar si no hay más resultados en la lista.

Nota

La nota puede representar los resultados del reconocimiento de voz o se puede ingresar como fuente de información verídica para facilitar el entrenamiento adicional de los modelos de reconocimiento de voz y el almacenamiento de las transcripciones finales corregidas.

Campos
name

string

El nombre del recurso de la nota, con el formato projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/dictations/{dictation_id}/notes/{note_id}. El servidor lo asigna.

speech_config_name

string

SpeechConfig se usa para producir esta nota con el formato projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/speechConfigs/{speech_config_id}.

type

Type

Tipo de nota.

origin

string

El origen de los resultados de reconocimiento, p. ej., un modelo en particular que se usó.

speech_recognition_results[]

SpeechRecognitionResult

Una lista secuencial de los resultados de transcripción que corresponden a partes secuenciales de audio, como partes de audio de interlocutores que se turnan para hablar en un diálogo.

create_time

Timestamp

La hora en que se creó la nota. La configura el servidor.

Tipo

Tipo de nota.

Enums
TYPE_UNSPECIFIED Un tipo que no es válido o no se especificó.
VERBATIM Una nota literal que se puede usar como "verdad fundamental" para el audio de dictado.
CORRECTION Correcciones sobre la nota generada por una llamada a Recognize.
DRAFT La nota de borrador que aún se puede actualizar antes de generar una nota final.
FINAL La nota final aprobada.
AUTO_RECOGNIZED Solo salida. Nota generada por una llamada a Recognize. No se puede crear una nota con el tipo AUTO_RECOGNIZED con CreateNote. No se puede actualizar una nota con el tipo AUTO_RECOGNIZED con UpdateNote. No se puede actualizar una nota con UpdateNote para tener el tipo AUTO_RECOGNIZED.

RecognitionAudio

Contiene datos de audio en la codificación especificada en RecognitionConfig. Se debe proporcionar content o uri. Si se proporcionan ambos o ninguno, se mostrará google.rpc.Code.INVALID_ARGUMENT. Consulta los límites de audio.

Campos
Campo de unión audio_source. Es la fuente de audio, que es contenido intercalado o un URI de Cloud Storage. audio_source puede ser solo uno de los siguientes:
content

bytes

Son los bytes de datos de audio codificados como se especifica en RecognitionConfig. Nota: Al igual que con todos los campos de bytes, los buffers de protocolos usan una representación binaria pura, mientras que las representaciones JSON usan Base64.

uri

string

URI que apunta a un archivo que contiene bytes de datos de audio como se especifica en RecognitionConfig. Por el momento, solo se admiten los URI de Cloud Storage, que se deben especificar en el siguiente formato: gs://bucket_name/object_name (otros formatos de URI muestran google.rpc.Code.INVALID_ARGUMENT). Para obtener más información, consulta URI de solicitud.

RecognitionConfig

Proporciona información al reconocedor que especifica cómo procesar la solicitud.

Campos
encoding

AudioEncoding

Codifica datos de audio enviados en todos los mensajes de RecognitionAudio. Este campo es opcional para los archivos de audio FLAC y WAV y es obligatorio para todos los demás formatos de audio. Para obtener más información, consulta AudioEncoding.

sample_rate_hertz

int32

Tasa de muestreo en hercios de los datos de audio que se enviaron en todos los mensajes RecognitionAudio. Estos son los valores válidos: desde 8,000 hasta 48,000. 16,000 es el valor óptimo. Para obtener los mejores resultados, establece la tasa de muestreo de la fuente de audio en 16,000 Hz. Si esto no es posible, usa la tasa de muestreo nativa de la fuente de audio (en lugar de volver a muestrear). Este campo es opcional para los archivos de audio FLAC y WAV y es obligatorio para todos los demás formatos de audio. Para obtener más información, consulta AudioEncoding.

audio_channel_count

int32

La cantidad de canales en los datos de audio de entrada. SOLO configura esta opción para el reconocimiento MULTICANAL. Los valores válidos para LINEAR16 y FLAC son 1-8. Los valores válidos para OGG_OPUS son “1” - “254”. El valor válido para MULAW, AMR, AMR_WB y SPEEX_WITH_HEADER_BYTE es solo 1. Si es 0 o se omite, se establece de manera predeterminada en un canal (mono). NOTA: Solo reconocemos el primer canal de forma predeterminada. Para realizar un reconocimiento independiente en cada canal, configura enable_separate_recognition_per_channel en “true”.

enable_separate_recognition_per_channel

bool

Debe configurarse como “true” y audio_channel_count > 1 para que cada canal se reconozca por separado. El resultado del reconocimiento contendrá un campo channel_tag para indicar a qué canal pertenece ese resultado. Si no es “true”, solo reconoceremos el primer canal.

language_code

string

El idioma del audio proporcionado como una etiqueta de idioma BCP-47. Ejemplo: “en_US”. Consulta Idiomas admitidos para obtener una lista de los códigos de idioma que se admiten por el momento.

context_phrases[]

string

Una lista de strings que contienen palabras y frases “sugerencias” para que el reconocimiento de voz las reconozca. Esto se puede usar para mejorar la precisión de palabras y frases específicas, por ejemplo, si el usuario suele decir comandos específicos. También se puede usar para agregar palabras adicionales al vocabulario del reconocedor.

model

string

Qué modelo debes seleccionar para la solicitud determinada Si no se especifica un modelo de forma explícita, se usa el valor predeterminado “default”.

AudioEncoding

La codificación de los datos de audio que se envía en la solicitud.

Todas las codificaciones admiten solo audio de 1 canal (mono).

Para obtener mejores resultados, la fuente de audio debe capturarse y transmitirse con una codificación sin pérdida (FLAC o LINEAR16). La precisión del reconocimiento de voz se puede reducir si se usan códecs con pérdida para capturar o transmitir audio, especialmente si hay ruido de fondo. Los códecs con pérdida incluyen MULAW, AMR, AMR_WB, OGG_OPUS y SPEEX_WITH_HEADER_BYTE.

Los formatos de archivo de audio FLAC y WAV incluyen un encabezado que describe el contenido de audio incluido. Puedes solicitar el reconocimiento de archivos WAV que contengan audio codificado en LINEAR16 o MULAW. Si envías el formato de archivo de audio FLAC o WAV en tu solicitud, no necesitas especificar un AudioEncoding; el formato de codificación de audio se determina a partir del encabezado del archivo. Si especificas un AudioEncoding cuando envías audio FLAC o WAV, la configuración de codificación debe coincidir con la codificación que se describe en el encabezado de audio. de lo contrario, la solicitud muestra un código de error google.rpc.Code.INVALID_ARGUMENT.

Enums
ENCODING_UNSPECIFIED No especificado.
LINEAR16 Son las muestras de little-endian de 16 bits firmadas y sin comprimir (PCM lineal).
FLAC FLAC (códec de audio gratuito sin pérdida) es la codificación recomendada debido a que no tiene pérdida, por lo que el reconocimiento no se ve comprometido, y requiere solo la mitad del ancho de banda de LINEAR16. La codificación de transmisión FLAC admite muestras de 16 y 24 bits. Sin embargo, no todos los campos en STREAMINFO son compatibles.
MULAW Las muestras de 8 bits que comprimen las muestras de audio de 14 bits mediante la ley PCMU/mu-law de G.711.
AMR El códec adaptable de banda estrecha de varias tasas. sample_rate_hertz debe ser 8,000.
AMR_WB El códec adaptable de banda ancha de varias tasas. sample_rate_hertz debe ser 16,000.
OGG_OPUS Los marcos de audio codificados en Opus en un contenedor Ogg (OggOpus). sample_rate_hertz debe ser de 8,000, 12,000, 16,000, 24,000 o 48,000.
SPEEX_WITH_HEADER_BYTE Aunque no se recomienda el uso de codificaciones con pérdidas, se prefiere OGG_OPUS por sobre la codificación Speex si se requiere una codificación de tasa de bits muy baja. La codificación Speex compatible con la API de Cloud Speech tiene un byte de encabezado en cada bloque, como en el tipo de MIME audio/x-speex-with-header-byte. Es una variante de la codificación Speex RTP definida en RFC 5574. La transmisión es una secuencia de bloques, un bloque por paquete RTP. Cada bloque comienza con un byte que contiene la longitud del bloque, en bytes, seguido de uno o más marcos de datos Speex, que se rellenan con un número entero de bytes (octetos) como se especifica en RFC 5574. En otras palabras, cada encabezado RTP se reemplaza por un solo byte que contiene la longitud del bloque. Solo se admite banda ancha de Speex. sample_rate_hertz debe ser 16,000.

RecognizeRequest

Envía un Dictation al motor de reconocimiento de voz. Crea un registro Note y lo agrega a Dictation.

Campos
name

string

Es el nombre del recurso del dictado que deseas transcribir.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado name:

  • healthcare.dictations.recognize

speech_config_name

string

La configuración de SpeechConfig que se usará en la solicitud de reconocimiento. La configuración de voz se puede proporcionar como una ruta de acceso de REST completa: projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/speechConfigs/{speech_config_id}.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado speechConfigName:

  • healthcare.speechConfigs.get

enable_voice_actions

bool

Determina si el motor de reconocimiento debe buscar acciones de voz.

RecognizeResponse

Respuesta final del método Recognize en un Dictation. Esta estructura se incluirá en google.longrunning.Operation.result.response para describir el resultado detallado de la ejecución de Recognize. Se incluirá solo cuando finalice la ejecución.

Campos
note_name

string

El nombre del recurso de la Note generada a partir de la llamada a Recognize, en el formato projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/dictations/{dictation_id}/notes/{note_id}.

RecognizedAction

La acción de voz que se detecta durante el reconocimiento.

Las acciones posibles se muestran en una lista en la siguiente tabla.

Acción de vozRecognizedAction

Selección de texto

P. ej., seleccionar la hemoglobina para el paciente.

{ "action_name": "TextSelection",
  "confidence": 1.0,
  "param_results": [
     { "parameter_name": "FromText",
       "value": "hemoglobin" },
     { "parameter_name": "ToText",
       "value": "patient" }
  ]
}

Quitar selección de texto

P. ej., anular la selección


{ "action_name": "RemoveSelection",
  "confidence": 1.0
}

Borrar el último enunciado o la oración actual

P. ej., deshacer eso


{ "action_name": "Undo",
  "confidence": 0.8
}

Insertar línea nueva

P. ej, una línea nueva


{ "action_name": "NewLine",
  "confidence": 1.0
}

Insertar párrafo nuevo

P. ej., párrafo nuevo


{ "action_name": "NewParagraph",
  "confidence": 1.0
}

Mover el cursor a la palabra anterior

P. ej., insertar antes de la hemoglobina


{ "action_name": "InsertAt",
  "confidence": 0.5,
  "param_results": [
     { "parameter_name": "InsertLocation",
       "value": "before" },
     { "parameter_name": "InsertTarget",
       "value": "hemoglobin" }
  ]
}

Mover el cursor

P. ej., ir al final de la oración.


{ "action_name": "MoveCursor",
  "confidence": 0.6,
  "param_results": [
     { "parameter_name": "MoveLocation",
       "value": "end" },
     { "parameter_name": "MoveTarget",
       "value": "sentence" }
  ]
}

Crea una lista en la posición del cursor

P. ej., insertar el número 1 de presión sanguínea baja


{ "action_name": "CreateList",
  "confidence": 0.6,
  "param_results": [
     { "parameter_name": "ListNum",
       "value": "1" },
     { "parameter_name": "InsertText",
       "value": "low pb" }
  ]
}

Campos
action_name

string

Nombre de la acción detectada

confidence

float

La estimación de confianza entre 0.0 y 1.0. La cantidad más alta indica una mayor probabilidad de que esta sea la acción de voz especificada.

params[]

RecognizedActionParameter

Lista de los parámetros para la acción detectada.

RecognizedActionParameter

Representa un parámetro de acción.

Campos
parameter_name

string

El nombre del parámetro de acción, p. ej., FromText.

value

string

El valor del parámetro de acción, p. ej., Foo.

SpeechConfig

Registro de configuración para admitir el entrenamiento y la adaptación. Los oradores humanos reales pueden compartir una configuración de SpeechConfig o cada uno tener configuraciones independientes.

Campos
name

string

Nombre del recurso de la configuración, con el formato projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/speechConfigs/{speech_config_id}. El servidor lo asigna.

recognition_config

RecognitionConfig

Proporciona información al reconocedor que especifica cómo procesar la solicitud.

speaker_external_id

string

ID en un sistema externo que se puede usar para seleccionar una configuración específica.

speaker_human_name

string

Nombre humano cuando se proporciona.

SpeechRecognitionResult

Un resultado del reconocimiento de voz que corresponde a una parte del audio.

Campos
transcript

string

Solo salida. Texto de transcripción que representa las palabras que dijo el usuario.

confidence

float

Solo salida. La estimación de confianza entre 0.0 y 1.0. Un número más alto indica una mayor probabilidad estimada de que las palabras reconocidas sean correctas. No se garantiza que este campo sea preciso. Los usuarios no deben confiar en que siempre se proporcione. El valor predeterminado de 0.0 es un valor sentinel que indica que no se estableció confidence.

words[]

WordInfo

Solo salida. Una lista de información específica de cada palabra reconocida.

channel_tag

int32

En el caso del audio multicanal, este es el número de canal correspondiente al resultado reconocido para el audio de ese canal. En el caso de que audio_channel_count = N, sus valores de salida pueden variar de “1” a “N”.

action

RecognizedAction

Se detectó una acción de voz durante el reconocimiento.

StreamingRecognitionResult

Es un resultado del reconocimiento de voz de transmisión que corresponde a una parte del audio que se procesa en el momento.

Campos
speech_recognition_result

SpeechRecognitionResult

Solo salida. Resultados incrementales del reconocimiento de voz. Los resultados pueden cambiar, siempre y cuando is_final se muestre como false. Una vez que los resultados son completamente estables, se anexan al recurso note almacenado y is_final se configuran como true.

is_final

bool

Solo salida. Si es false, este StreamingRecognitionResult representa un resultado provisional que puede cambiar. Si es true, esta es la última vez que el servicio de voz mostrará este StreamingRecognitionResult en particular. El reconocedor no mostrará más hipótesis para esta parte de la transcripción y el audio correspondiente.

stability

float

Solo salida. Una estimación de la probabilidad de que el reconocedor no cambie su suposición sobre este resultado provisional. Los valores van de 0.0 (completamente inestable) a 1.0 (completamente estable). Este campo solo se proporciona para los resultados provisionales (is_final=false). El valor predeterminado de 0.0 es un valor centinela que indica que no se configuró stability.

StreamingRecognizeRequest

Es el mensaje de nivel superior a la que envía el cliente para el método [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] de [StreamingRecognize]. Se envían varios mensajes StreamingRecognizeRequest. El primer mensaje debe contener un mensaje stream_setup_info y no debe contener datos audio_content. Todos los mensajes posteriores deben contener datos audio_content y no deben contener un mensaje stream_setup_info.

Campos
Campo de unión streaming_request. Es la solicitud de transmisión, que es información de configuración de transmisión o contenido de audio. streaming_request puede ser solo uno de los siguientes:
stream_setup_info

RecognizeRequest

Proporciona información al reconocedor que especifica cómo procesar la solicitud. El primer mensaje StreamingRecognizeRequest debe contener un mensaje stream_setup_info.

audio_content

bytes

Los datos de audio que se reconocerán. Los fragmentos secuenciales de datos de audio deben enviarse en mensajes StreamingRecognizeRequest secuenciales. El primer mensaje StreamingRecognizeRequest no debe contener datos audio_content, pero todos los mensajes StreamingRecognizeRequest posteriores deben contener datos audio_content. Los bytes de audio deben estar codificados como se especifica en RecognizeRequest. Nota: Al igual que con todos los campos de bytes, los buffers de protocolos usan una representación binaria pura (no de Base64). Consulta los límites de audio.

StreamingRecognizeResponse

StreamingRecognizeResponse es el único mensaje que muestra [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] de [StreamingRecognize]. Una serie de cero o más mensajes StreamingRecognizeResponse se transmiten al cliente. Si no hay audio reconocible y single_utterance está configurado como falso, no se transmitirá ningún mensaje al cliente.

Este es un ejemplo de una serie de StreamingRecognizeResponse que se pueden mostrar mientras se procesa el audio:

  1. resultados {speech_recognition_result {transcript: “tube”} estabilidad: 0.01}

  2. resultados {speech_recognition_result {transcript: “to be a”} stability: 0.01}

  3. resultados {speech_recognition_result {transcript: “to be”} stability: 0.9} resultados {speech_recognition_result {transcript: “or not to be”} stability: 0.01}

  4. resultados {speech_recognition_result {transcript: “to be or not to be” confidence: 0.92 } is_final: true}

  5. resultados {speech_recognition_result {transcript: “that's”} stability: 0.01}

  6. resultados {speech_recognition_result {transcript: “that is”} stability: 0.9} resultados {speech_recognition_result {transcript: " the question"} stability: 0.01}

  7. resultados {speech_recognition_result { transcript: “that is the question” confidence 0.98 } is_final: true}

Notas:

  • Solo dos de las respuestas (n.º 4 y n.º 7) contienen resultados finales, como lo indica el campo is_final: true. La concatenación de las respuestas genera la transcripción completa: “ser o no ser esa es la cuestión”.

  • Las otras respuestas contienen results provisionales. El n.º 3 y el n.º 6 contienen dos results provisionales: la primera parte tiene una alta estabilidad y es menos probable que cambie, la segunda parte tiene baja estabilidad y es muy probable que cambie.

  • Los valores stability y confidence específicos que se muestran arriba solo tienen fines ilustrativos. Los valores reales pueden variar.

  • En cada respuesta, solo se establecerá uno de estos campos: error, speech_event_type o uno o más (repetidos) results.

Campos
error

Status

Solo salida. Estado de error asociado con la operación de transmisión, si corresponde.

results[]

StreamingRecognitionResult

Solo salida. Esta lista repetida contiene cero o más resultados que corresponden a las partes consecutivas del audio que se procesa. Contiene cero o un resultado de is_final=true (la parte recién liquidada), seguido de cero o más resultados de is_final=false (los resultados provisionales).

speech_event_type

SpeechEventType

Solo salida. Indica el tipo de evento de voz.

SpeechEventType

Indica el tipo de evento de voz.

Enums
SPEECH_EVENT_TYPE_UNSPECIFIED Indica que no se especificó ningún evento de voz.
END_OF_SINGLE_UTTERANCE Este evento indica que el servidor detectó el final del enunciado de voz del usuario y que no espera que siga hablando. Por lo tanto, el servidor no procesará audio adicional (aunque puede que muestre resultados adicionales de forma posterior). El cliente debe dejar de enviar datos de audio adicionales, cerrar de forma parcial la conexión de gRPC y esperar cualquier resultado adicional hasta que el servidor también la cierre. Este evento solo se envía si single_utterance se estableció en true y no se usa de otra manera.

TrainingConsent

Especifica el tipo de consentimiento otorgado para mejorar el reconocimiento de voz.

Enums
ALLOW Consentimiento para el entrenamiento.
DISALLOW No hay consentimiento para el entrenamiento.

UpdateDictationRequest

Solicitud para actualizar el Dictation determinado.

Campos
dictation

Dictation

El recurso de dictado que actualiza el recurso en el servidor. Solo los campos enumerados en update_mask serán obligatorios o se aplicarán.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado dictation:

  • healthcare.dictations.update

update_mask

FieldMask

La máscara de actualización se aplica al recurso. Para ver la definición de FieldMask, consulta https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask.

UpdateDictationStoreRequest

Actualiza la Dictation store.

Campos
dictation_store

DictationStore

El recurso del almacén de dictado que actualiza el recurso en el servidor. Solo se aplicarán los campos que se enumeran en update_mask.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado dictationStore:

  • healthcare.dictationStores.update

update_mask

FieldMask

La máscara de actualización se aplica al recurso. Para ver la definición de FieldMask, consulta https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask.

UpdateNoteRequest

Solicitud a fin de actualizar el Note determinado, p. ej., para actualizar SpeechConfig.

Campos
note

Note

El recurso de nota que actualiza el recurso en el servidor. Solo los campos enumerados en update_mask serán obligatorios o se aplicarán. No se puede actualizar una nota con el tipo AUTO_RECOGNIZED. No se puede actualizar una nota para que contenga el tipo AUTO_RECOGNIZED.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado note:

  • healthcare.dictations.update

update_mask

FieldMask

La máscara de actualización se aplica al recurso. Para ver la definición de FieldMask, consulta https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask.

UpdateSpeechConfigRequest

Solicitud a fin de actualizar la SpeechConfig determinado, p. ej., para actualizar el idioma.

Campos
speech_config

SpeechConfig

El recurso SpeechConfig que actualiza el recurso en el servidor. Solo los campos enumerados en update_mask serán obligatorios o se aplicarán.

La autorización requiere el siguiente permiso de Google IAM en el recurso especificado speechConfig:

  • healthcare.speechConfigs.update

update_mask

FieldMask

La máscara de actualización se aplica al recurso. Para ver la definición de FieldMask, consulta https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask.

WordInfo

Información específica de las palabras reconocidas.

Campos
start_time_offset

Duration

Solo salida. Compensación horaria relacionada con el comienzo del audio y que corresponde al inicio de la palabra hablada. Este campo solo se establece si enable_word_time_offsets=true y únicamente en la hipótesis principal. Esta es una función experimental. La precisión de la compensación horaria puede variar.

end_time_offset

Duration

Solo salida. Compensación horaria relacionada con el comienzo del audio y que corresponde al final de la palabra hablada. Este campo solo se establece si enable_word_time_offsets=true y únicamente en la hipótesis principal. Esta es una función experimental. La precisión de la compensación horaria puede variar.

word

string

Solo salida. La palabra correspondiente a este conjunto de información.

confidence

float

Solo salida. La estimación de confianza entre 0.0 y 1.0. Un número más alto indica una mayor probabilidad estimada de que las palabras reconocidas sean correctas. No se garantiza que este campo sea preciso. Los usuarios no deben confiar en que siempre se proporcione. El valor predeterminado de 0.0 es un valor sentinel que indica que no se estableció confidence.