Pacote google.cloud.healthcare.v1alpha2.dictation

Index

DictationService

Um serviço para lidar com solicitações de ditado médico. Os dados de ditado são armazenados junto com outras formas de saúde nos conjuntos de dados. Cada conjunto de dados pode ter zero ou mais armazenamentos de dados de modificação, por exemplo, dictation stores. O áudio de ditado (Dictations) e os resultados transcritos (Notes) são os dois principais tipos de dados armazenados em armazenamentos de ditado. SpeechConfigs estão codificando os parâmetros usados para o reconhecimento automático de fala.

CreateDictation

rpc CreateDictation(CreateDictationRequest) returns (Dictation)

Cria um novo registro Dictation. Persiste amostras de áudio. É válido criar objetos de ditado que representam o mesmo áudio mais de uma vez, já que o código exclusivo é atribuído a cada objeto por esse serviço.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

CreateDictationStore

rpc CreateDictationStore(CreateDictationStoreRequest) returns (DictationStore)

Cria um novo Dictation store no conjunto de dados pai. A tentativa de criar um armazenamento de ditado com o mesmo código de um armazenamento existente falhará com o erro ALREADY_EXISTS.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

CreateNote

rpc CreateNote(CreateNoteRequest) returns (Note)

Cria um Note novo. A nota é adicionada ao armazenamento de ditados e associada ao ditado. A nota pode ser parcialmente preenchida; os resultados podem ser preenchidos posteriormente como resultado da chamada de UpdateNote. Mais de uma nota pode ser associada ao mesmo Dictation que representa resultados de reconhecimento de fala ou transcrição manual realizada por um transcritor humano. É válido criar objetos Note com o mesmo conteúdo mais de uma vez, já que o código exclusivo é atribuído a cada objeto por esse serviço.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

CreateSpeechConfig

rpc CreateSpeechConfig(CreateSpeechConfigRequest) returns (SpeechConfig)

Cria um SpeechConfig novo. O SpeechConfig é adicionado ao armazenamento de ditados e associado a uma nota. O SpeechConfig pode ser parcialmente preenchido. os resultados podem ser preenchidos posteriormente como resultado da chamada de UpdateSpeechConfig. É válido criar objetos SpeechConfig com o mesmo conteúdo mais de uma vez, já que o código exclusivo é atribuído a cada objeto por esse serviço.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

DeleteDictation

rpc DeleteDictation(DeleteDictationRequest) returns (Empty)

Exclui um Dictation ou retorna NOT_FOUND se ele não existir.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

DeleteDictationStore

rpc DeleteDictationStore(DeleteDictationStoreRequest) returns (Empty)

Exclui o Dictation store especificado e remove todos os ditados contidos nele.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

DeleteNote

rpc DeleteNote(DeleteNoteRequest) returns (Empty)

Exclui um Note existente.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

DeleteSpeechConfig

rpc DeleteSpeechConfig(DeleteSpeechConfigRequest) returns (Empty)

Exclui um SpeechConfig ou retorna NOT_FOUND se ele não existir.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

GetDictation

rpc GetDictation(GetDictationRequest) returns (Dictation)

Recebe um Dictation.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

GetDictationStore

rpc GetDictationStore(GetDictationStoreRequest) returns (DictationStore)

Recebe o Dictation store especificado ou retorna NOT_FOUND se ele não existir.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

GetIamPolicy

rpc GetIamPolicy(GetIamPolicyRequest) returns (Policy)

Busca a política de controle de acesso a um recurso. Retorna o erro NOT_FOUND se o recurso não existir. Retorna uma política vazia se o recurso existir, mas não tiver um conjunto de políticas.

A autorização requer a permissão healthcare.DictationStores.getIamPolicy do Google IAM no recurso especificado

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

GetNote

rpc GetNote(GetNoteRequest) returns (Note)

Recebe um Note.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

GetSpeechConfig

rpc GetSpeechConfig(GetSpeechConfigRequest) returns (SpeechConfig)

Recebe uma configuração SpeechConfig.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

ListDictationStores

rpc ListDictationStores(ListDictationStoresRequest) returns (ListDictationStoresResponse)

Lista o Dictation stores no conjunto de dados fornecido.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

ListDictations

rpc ListDictations(ListDictationsRequest) returns (ListDictationsResponse)

Lista o Dictations no Dictation store fornecido.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

ListNotes

rpc ListNotes(ListNotesRequest) returns (ListNotesResponse)

Lista todos os Notes no Dictation fornecido com suporte para filtragem.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

ListSpeechConfigs

rpc ListSpeechConfigs(ListSpeechConfigsRequest) returns (ListSpeechConfigsResponse)

Lista todos os SpeechConfigs no Dictation store fornecido com suporte para filtragem.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

Recognize

rpc Recognize(RecognizeRequest) returns (Operation)

Executa reconhecimento de fala assíncrono: recebe resultados por meio da interface google.longrunning.Operations. Retorna um Operation.error ou um Operation.response que contém uma mensagem RecognizeResponse. Nesse caso, o Note cujo nome é retornado no RecognizeResponse se torna filho do Dictation. O tipo de campo metadata é OperationMetadata.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

SetIamPolicy

rpc SetIamPolicy(SetIamPolicyRequest) returns (Policy)

Define a política de controle de acesso de um recurso. Substitui qualquer política atual.

A autorização requer a permissão healthcare.DictationStores.setIamPolicy do Google IAM no recurso especificado

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

StreamingRecognize

rpc StreamingRecognize(StreamingRecognizeRequest) returns (StreamingRecognizeResponse)

Executa o reconhecimento de fala em streaming bidirecional, que permite que o cliente receba resultados ao enviar áudio. Esse método só está disponível por meio da API gRPC (não REST). O áudio enviado por meio desse método é adicionado ao Dictation especificado na solicitação. O ditado não deve conter áudio antes desta chamada. Observe que um ditado sem áudio pode ser criado não especificando o campo audio em CreateDictationRequest ao criar o ditado. Os resultados do reconhecimento enviados de volta ao cliente são armazenados em um Note, que é filho do ditado especificado na solicitação.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

TestIamPermissions

rpc TestIamPermissions(TestIamPermissionsRequest) returns (TestIamPermissionsResponse)

Retorna permissões do autor da chamada no recurso especificado. Se o recurso não estiver presente, isso retornará um conjunto vazio de permissões, não um erro NOT_FOUND.

Não é necessária permissão para fazer essa chamada de API.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

UpdateDictation

rpc UpdateDictation(UpdateDictationRequest) returns (Dictation)

Atualiza o Dictation.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

UpdateDictationStore

rpc UpdateDictationStore(UpdateDictationStoreRequest) returns (DictationStore)

Atualiza o Dictation store especificado.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

UpdateNote

rpc UpdateNote(UpdateNoteRequest) returns (Note)

Atualiza o Note.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

UpdateSpeechConfig

rpc UpdateSpeechConfig(UpdateSpeechConfigRequest) returns (SpeechConfig)

Atualiza o SpeechConfig.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

CreateDictationRequest

Cria um registro Dictation com amostras de áudio e o adiciona a Dictation store.

Campos
parent

string

O nome do armazenamento de ditados ao qual o ditado pertence.

A autorização requer a seguinte permissão do Google IAM no recurso especificado parent:

  • healthcare.dictations.create

dictation

Dictation

Ditado

return_mask

FieldMask

A máscara de retorno se aplica ao recurso de ditado retornado. Para a definição de FieldMask, consulte https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask

CreateDictationStoreRequest

Cria um Dictation store novo.

Campos
parent

string

O nome do conjunto de dados ao qual o armazenamento de ditado pertence.

A autorização requer a seguinte permissão do Google IAM no recurso especificado parent:

  • healthcare.dictationStores.create

dictation_store_id

string

O ID do armazenamento de ditado que está sendo criado. A string precisa corresponder à seguinte regex: [\p{L}\p{N}_\-\.]{1,256}.

dictation_store

DictationStore

Informações de configuração deste armazenamento de Ditado.

CreateNoteRequest

Cria um registro Note e o adiciona a Dictation.

Campos
parent

string

O nome do ditado ao qual esta nota pertence.

A autorização requer a seguinte permissão do Google IAM no recurso especificado parent:

  • healthcare.dictations.update

note

Note

Nota a ser criada.

return_mask

FieldMask

A máscara de atualização se aplica ao recurso de nota retornado. Para a definição de FieldMask, consulte https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask

CreateSpeechConfigRequest

Cria um registro SpeechConfig, incluindo a confirmação de reconhecimento, e o adiciona a Dictation store.

Campos
parent

string

O nome do armazenamento de ditado ao qual o speech_config pertence.

A autorização requer a seguinte permissão do Google IAM no recurso especificado parent:

  • healthcare.speechConfigs.create

speech_config

SpeechConfig

SpeechConfig

DeleteDictationRequest

Exclui um Dictation do Dictation store especificado.

Campos
name

string

O nome do recurso do ditado a ser excluído.

A autorização requer a seguinte permissão do Google IAM no recurso especificado name:

  • healthcare.dictations.delete

DeleteDictationStoreRequest

Exclui o Dictation store especificado.

Campos
name

string

O nome do recurso do armazenamento de ditado a ser excluído.

A autorização requer a seguinte permissão do Google IAM no recurso especificado name:

  • healthcare.dictationStores.delete

DeleteNoteRequest

Exclui um Note do Dictation especificado.

Campos
name

string

O nome do recurso da nota a ser excluída.

A autorização requer a seguinte permissão do Google IAM no recurso especificado name:

  • healthcare.dictations.update

DeleteSpeechConfigRequest

Exclui uma configuração SpeechConfig do Dictation store especificado.

Campos
name

string

O nome do recurso da configuração do SpeechConfig a ser excluído.

A autorização requer a seguinte permissão do Google IAM no recurso especificado name:

  • healthcare.speechConfigs.delete

Ditado

Um ditado de áudio.

Campos
name

string

Nome do recurso do ditado, no formato projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/dictations/{dictation_id}. Atribuído pelo servidor.

audio

RecognitionAudio

Quando retornado na resposta GetDictation, apresenta conteúdo de áudio na representação binária. O campo de áudio não está incluído nas respostas CreateDictation e UpdateDictation.

create_time

Timestamp

Apenas saída. A hora em que o ditado foi criado.

DictationStore

Um armazenamento de ditado que pode armazenar outros recursos relacionados a ditado, como ditados, notas e SpeechConfigs.

Campos
name

string

Apenas saída. Nome do recurso do armazenamento de ditado, no formato projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}.

pubsub_topic

string

O tópico do Cloud Pub/Sub em que as notificações de alterações em ditados e notas são publicadas. PubsubMessage.Data conterá o nome do recurso "Dictation" ou "Note". PubsubMessage.Attributes conterá um mapa com uma string que descreve a ação que acionou a notificação, por exemplo, "action":"CreateDictation". As notificações só são enviadas se o tópico não estiver vazio. Os nomes de tópicos precisam ter escopo para um projeto. Essa API precisa ter permissões de editor no tópico do Cloud Pub/Sub fornecido. Não ter permissões adequadas fará com que as chamadas que enviam notificações falhem. Fornecido pelo cliente.

labels

map<string, string>

Os pares de valores-chave fornecidos pelo usuário são usados para organizar os armazenamentos de ditado.

As chaves de rótulo precisam ter entre 1 e 63 caracteres, ter uma codificação UTF-8 de no máximo 128 bytes e estar em conformidade com a seguinte expressão regular PCRE: [\p{Ll}\p{Lo}][\p{Ll}\p{Lo}\p{N}_-]{0,62}

s valores dos rótulos são opcionais, precisam ter entre 1 e 63 caracteres, ter uma codificação UTF-8 de no máximo 128 bytes e estar em conformidade com a seguinte expressão regular PCRE: [\p{Ll}\p{Lo}\p{N}_-]{0,63}

Não é possível associar mais de 64 rótulos a um determinado armazenamento.

GetDictationRequest

Recebe um Dictation do Dictation store especificado.

Campos
name

string

O nome do recurso do ditado a ser recuperado.

A autorização requer a seguinte permissão do Google IAM no recurso especificado name:

  • healthcare.dictations.get

GetDictationStoreRequest

Recebe um Dictation store.

Campos
name

string

O nome do recurso do armazenamento de ditado a ser recebido.

A autorização requer a seguinte permissão do Google IAM no recurso especificado name:

  • healthcare.dictationStores.get

GetNoteRequest

Recebe um Note do Dictation especificado.

Campos
name

string

O nome do recurso da nota a ser recuperada.

A autorização requer a seguinte permissão do Google IAM no recurso especificado name:

  • healthcare.dictations.get

GetSpeechConfigRequest

Recebe um registro SpeechConfig do Dictation store especificado.

Campos
name

string

O nome do recurso da configuração de SpeechConfig a ser recuperada.

A autorização requer a seguinte permissão do Google IAM no recurso especificado name:

  • healthcare.speechConfigs.get

ListDictationStoresRequest

Lista o Dictation stores no conjunto de dados fornecido.

Campos
parent

string

Nome do conjunto de dados.

A autorização requer a seguinte permissão do Google IAM no recurso especificado parent:

  • healthcare.dictationStores.list

page_size

int32

Limite do número de armazenamentos de ditado a serem retornados em uma única resposta. Se zero, o tamanho de página padrão de 100 será usado.

page_token

string

O valor next_page_token retornado da solicitação de lista anterior, se houver.

filter

string

Restringe os armazenamentos retornados àquelas que correspondem a um filtro. Sintaxe: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Só é possível filtrar rótulos, por exemplo labels.key=value.

ListDictationStoresResponse

Lista o Dictation stores no conjunto de dados fornecido.

Campos
dictation_stores[]

DictationStore

Os armazenamentos de ditado retornados. Não será mais armazenamentos de ditado do que o valor de page_size na solicitação.

next_page_token

string

Token para recuperar a próxima página de resultados ou vazia se não houver mais resultados na lista.

ListDictationsRequest

Lista o Dictations no Dictation store especificado.

Campos
parent

string

Nome do armazenamento de ditados de onde eles são recuperados.

A autorização requer a seguinte permissão do Google IAM no recurso especificado parent:

  • healthcare.dictations.list

page_size

int32

Limite do número de ditados a serem retornados em uma única resposta. Caso seja definido como zero, será usado o tamanho de página padrão de 100.

page_token

string

O valor next_page_token retornado da solicitação de lista anterior, se houver.

filter

string

Restringe os ditados retornados àqueles que correspondem a um filtro. Sintaxe: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Os campos/funções disponíveis para o filtro são: - use_for_speech_training

ListDictationsResponse

Lista o Dictations no Dictation store especificado.

Campos
dictation_names[]

string

Os nomes de ditados retornados. Não terá mais valores do que o valor de page_size na solicitação.

next_page_token

string

Token para recuperar a próxima página de resultados ou vazia se não houver mais resultados na lista.

ListNotesRequest

Lista o Notes no Dictation especificado.

Campos
parent

string

Nome do ditado do qual recuperar notas.

A autorização requer a seguinte permissão do Google IAM no recurso especificado parent:

  • healthcare.dictations.get

page_size

int32

Limite do número de notas a serem retornadas em uma única resposta. Se zero, o tamanho de página padrão de 100 será usado.

page_token

string

O valor next_page_token retornado da solicitação de lista anterior, se houver.

filter

string

Restringe as notas retornadas àquelas que correspondem a um filtro. Sintaxe: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Os campos/funções disponíveis para filtragem são: - type - origin - speech_config_name - speaker_external_id - speaker_human_name

ListNotesResponse

Lista o Notes no Dictation especificado.

Campos
note_names[]

string

Os nomes das notas retornados. Não terá mais valores do que o valor de page_size na solicitação.

next_page_token

string

Token para recuperar a próxima página de resultados ou vazia se não houver mais resultados na lista.

ListSpeechConfigsRequest

Lista o SpeechConfigs no Dictation store especificado.

Campos
parent

string

Nome do armazenamento de ditado do qual recuperar SpeechConfigs.

A autorização requer a seguinte permissão do Google IAM no recurso especificado parent:

  • healthcare.speechConfigs.list

page_size

int32

Limite do número de SpeechConfigs a serem retornados em uma única resposta. Se zero, o tamanho de página padrão de 100 será usado.

page_token

string

O valor next_page_token retornado da solicitação de lista anterior, se houver.

filter

string

Restringe o SpeechConfigs retornado aos que correspondem a um filtro. Sintaxe: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Os campos/funções disponíveis para filtragem são: - speaker_external_id - speaker_human_name

ListSpeechConfigsResponse

Lista o SpeechConfigs no Dictation store especificado.

Campos
speech_config_names[]

string

Os nomes de SpeechConfigs retornados. Não terá mais valores do que o valor de page_size na solicitação.

next_page_token

string

Token para recuperar a próxima página de resultados ou vazia se não houver mais resultados na lista.

Nota

A nota pode representar resultados de reconhecimento de fala ou inserida como uma fonte de verdade para facilitar o treinamento adicional dos modelos de reconhecimento de fala, bem como o armazenamento para transcrições finais corrigidas.

Campos
name

string

Nome do recurso da Observação, no formato projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/dictations/{dictation_id}/notes/{note_id}. Atribuído pelo servidor.

speech_config_name

string

SpeechConfig usado para produzir essa nota do formulário projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/speechConfigs/{speech_config_id}.

type

Type

Tipo de nota.

origin

string

Origem dos resultados de reconhecimento, por exemplo, modelo específico usado.

speech_recognition_results[]

SpeechRecognitionResult

Lista sequencial de resultados de transcrição correspondentes a partes sequenciais de áudio, como trechos de áudio falados por falantes que se revezam em uma caixa de diálogo.

create_time

Timestamp

A hora em que a nota foi criada. Definido pelo servidor.

Tipo

Tipo de nota.

Enums
TYPE_UNSPECIFIED Tipo inválido ou não especificado.
VERBATIM Observação que pode ser usada como uma "verdade" para o áudio do ditado.
CORRECTION Correções na nota gerada por uma chamada para "Reconhecer".
DRAFT Rascunho de nota que ainda pode ser atualizado antes de gerar uma nota final.
FINAL Observação final aprovada.
AUTO_RECOGNIZED Apenas saída. Observação gerada por uma chamada para "Reconhecer". Não é possível criar uma Observação com o tipo AUTOMÁTICO com o CreateNote. Uma Observação com o tipo AUTOMÁTICO não pode ser atualizada com UpdateNote. Uma Observação não pode ser atualizada com UpdateNote para ter o tipo AUTOMÁTICO.

RecognitionAudio

Contém dados de áudio na codificação especificada no RecognitionConfig. É necessário fornecer content ou uri. Fornecer ambos ou nenhum retorna google.rpc.Code.INVALID_ARGUMENT. Consulte os limites de áudio.

Campos
Campo de união audio_source. A fonte de áudio, que é conteúdo in-line ou um URI do Cloud Storage. audio_source pode ser apenas de um dos tipos a seguir:
content

bytes

Os bytes de dados de áudio codificados conforme especificado em RecognitionConfig. Observação: como em todos os campos de bytes, os protobuffers usam uma representação binária pura e as representações JSON usam base64.

uri

string

URI que aponta para um arquivo com bytes de dados de áudio, conforme especificado em RecognitionConfig. Atualmente, apenas URIs do Cloud Storage são compatíveis, que precisam ser especificados no seguinte formato: gs://bucket_name/object_name (outros formatos de URI retornam google.rpc.Code.INVALID_ARGUMENT). Para mais informações, consulte URIs de solicitação.

RecognitionConfig

São fornecidas informações ao reconhecedor que especificam como processar a solicitação.

Campos
encoding

AudioEncoding

Codificação de dados de áudio enviados em todas as mensagens RecognitionAudio. Este campo é opcional para arquivos de áudio FLAC e WAV e é necessário para todos os outros formatos de áudio. Para detalhes, consulte: AudioEncoding.

sample_rate_hertz

int32

Taxa de amostragem em Hertz dos dados de áudio enviados em todas as mensagens RecognitionAudio. Os valores válidos são: 8000-48000. 16.000 é o ideal. Para melhores resultados, defina a taxa de amostragem da fonte de áudio para 16.000 Hz. Se isso não for possível, use a taxa de amostragem nativa da fonte de áudio em vez de fazer nova amostragem. Este campo é opcional para arquivos de áudio FLAC e WAV e é necessário para todos os outros formatos de áudio. Para detalhes, consulte: AudioEncoding.

audio_channel_count

int32

O número de canais nos dados de áudio de entrada. Defina SOMENTE para reconhecimento MULTICANAIS. Os valores válidos para LINEAR16 e FLAC são 1 - 8. Os valores válidos para OGG_OPUS são '1' -'254'. O valor válido para MULAW, AMR, AMR_WB e SPEEX_WITH_HEADER_BYTE é apenas 1. Se for 0 ou omitido, o padrão será um canal (mono). OBSERVAÇÃO: por padrão, nós só reconhecemos o primeiro canal. Para realizar um reconhecimento independente em cada conjunto de canais, defina enable_separate_recognition_per_channel como "true".

enable_separate_recognition_per_channel

bool

Precisa ser definido como "verdadeiro" de maneira explícita e audio_channel_count > 1 para que cada canal seja reconhecido separadamente.Número de registros com erros associados ao enum. O resultado do reconhecimento conterá um campo "channel_tag" para indicar a qual canal o resultado pertence. Se não for verdadeiro, somente o primeiro canal será reconhecido.

language_code

string

Idioma do áudio fornecido como uma tag de idioma BCP-47. Exemplo: "en-US". Para uma lista dos códigos de idioma compatíveis atualmente, consulte o Suporte de idioma.

context_phrases[]

string

Uma lista de strings contendo "dicas" de palavras e frases para que o reconhecimento de fala seja mais provável. Isso pode ser usado para melhorar a precisão de palavras e frases específicas, por exemplo, se comandos específicos forem normalmente falados pelo usuário. Isso também pode ser usado para adicionar palavras ao vocabulário do reconhecedor.

model

string

Qual modelo selecionar para a solicitação especificada. Se um modelo não for especificado explicitamente, o valor padrão "default" será usado.

AudioEncoding

A codificação dos dados de áudio enviados na solicitação.

Todas as codificações são compatíveis com apenas 1 canal (mono) de áudio.

Para melhores resultados, a fonte de áudio precisa ser capturada e transmitida usando uma codificação sem perdas (FLAC ou LINEAR16). A precisão do reconhecimento de fala pode ser reduzida se codecs com perdas forem usados para capturar ou transmitir áudio, especialmente se houver ruído de fundo. MULAW, AMR, AMR_WB, OGG_OPUS e SPEEX_WITH_HEADER_BYTE são codecs com perdas.

Os formatos de arquivo de áudio FLAC e WAV incluem um cabeçalho que descreve o conteúdo de áudio incluído. Você pode solicitar o reconhecimento para arquivos WAV que contêm áudio codificado com LINEAR16 ou MULAW. Se você enviar o formato de arquivo de áudio FLAC ou WAV na solicitação, não será necessário especificar um AudioEncoding. o formato de codificação de áudio é determinado no cabeçalho do arquivo. Se você especificar um AudioEncoding ao enviar áudio FLAC ou WAV, a configuração de codificação precisará corresponder à codificação descrita no cabeçalho de áudio. Caso contrário, a solicitação retornará um código de erro google.rpc.Code.INVALID_ARGUMENT.

Enums
ENCODING_UNSPECIFIED Não especificado.
LINEAR16 Amostras pouco elaboradas de 16 bits sem compactação (PCM Linear).
FLAC FLAC (Free Lossless Audio Codec) é a codificação recomendada porque não tem perdas. Portanto, o reconhecimento não é comprometido e requer apenas cerca de metade da largura de banda do LINEAR16. A codificação de stream FLAC é compatível com amostras de 16 bits e 24 bits. No entanto, nem todos os campos no STREAMINFO são compatíveis.
MULAW Amostras de 8 bits resultantes do compand de amostras de áudio de 14 bits em que foi usado G.711 PCMU/mu-law.
AMR Codec de banda estreita multitaxa adaptável. sample_rate_hertz precisa ser 8.000.
AMR_WB Codec de banda larga multitaxa adaptável. sample_rate_hertz precisa ser 16.000.
OGG_OPUS Frames de áudio codificados pelo Opus no contêiner Ogg (OggOpus). sample_rate_hertz precisa ser 8.000, 12.000, 16.000, 24.000 ou 48.000.
SPEEX_WITH_HEADER_BYTE Ainda que o uso de codificações com perdas não seja recomendado, se for necessária uma codificação de bitrate muito baixa, OGG_OPUS é altamente preferível em relação à codificação Speex. A codificação Speex compatível com a Cloud Speech API tem um byte de cabeçalho em cada bloco, como no tipo MIME audio/x-speex-with-header-byte. É uma variante da codificação RTP Speex definida no RFC 5574. O stream é uma sequência de blocos, um bloco por pacote RTP. No início de cada bloco, há um byte contendo o comprimento do bloco em bytes, seguido de um ou mais frames de dados Speex, preenchidos com um número inteiro de bytes (octetos) conforme especificado no RFC 5574. Em outras palavras, cada cabeçalho RTP é substituído por um único byte contendo o comprimento do bloco. Somente a banda larga Speex é compatível. sample_rate_hertz precisa ser 16.000.

RecognizeRequest

Envia um Dictation para o mecanismo de reconhecimento de fala. Cria um registro Note e o adiciona a Dictation.

Campos
name

string

O nome do recurso do ditado a ser transcrito.

A autorização requer a seguinte permissão do Google IAM no recurso especificado name:

  • healthcare.dictations.recognize

speech_config_name

string

Configuração do SpeechConfig a ser usada na solicitação de reconhecimento. A configuração de fala pode ser fornecida como um caminho REST completo: projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/speechConfigs/{speech_config_id}.

A autorização requer a seguinte permissão do Google IAM no recurso especificado speechConfigName:

  • healthcare.speechConfigs.get

enable_voice_actions

bool

Determina se o mecanismo de reconhecimento deve procurar ações de voz.

RecognizeResponse

Resposta final do método Recognize em um Dictation. Essa estrutura será incluída no google.longrunning.Operation.result.response para descrever o resultado detalhado da execução do Recognize. Ele será incluído somente quando a execução for concluída.

Campos
note_name

string

O nome do recurso da Note gerada da chamada para o Recognize, no formato projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/dictations/{dictation_id}/notes/{note_id}.

RecognizedAction

A ação de voz detectada durante o reconhecimento.

As ações possíveis estão listadas na tabela abaixo.

Ação por vozRecognizedAction

Seleção de texto.

Por exemplo, selecione hemoglobina para o paciente

{ "action_name": "TextSelection",
  "confidence": 1.0,
  "param_results": [
     { "parameter_name": "FromText",
       "value": "hemoglobin" },
     { "parameter_name": "ToText",
       "value": "patient" }
  ]
}

Remover seleção de texto.

Por exemplo, desmarque esta opção


{ "action_name": "RemoveSelection",
  "confidence": 1.0
}

Excluir última expressão ou frase atual

Por exemplo, desfazer


{ "action_name": "Undo",
  "confidence": 0.8
}

Inserir nova linha

Por exemplo, nova linha


{ "action_name": "NewLine",
  "confidence": 1.0
}

Inserir novo parágrafo

Por exemplo, novo parágrafo


{ "action_name": "NewParagraph",
  "confidence": 1.0
}

Mover o cursor para uma palavra anterior

Por exemplo, insira antes da hemoglobina


{ "action_name": "InsertAt",
  "confidence": 0.5,
  "param_results": [
     { "parameter_name": "InsertLocation",
       "value": "before" },
     { "parameter_name": "InsertTarget",
       "value": "hemoglobin" }
  ]
}

Mover cursor

Por exemplo, vá para o fim da frase.


{ "action_name": "MoveCursor",
  "confidence": 0.6,
  "param_results": [
     { "parameter_name": "MoveLocation",
       "value": "end" },
     { "parameter_name": "MoveTarget",
       "value": "sentence" }
  ]
}

Criar uma lista em que o cursor está

Por exemplo, inserir número 1 bp baixo


{ "action_name": "CreateList",
  "confidence": 0.6,
  "param_results": [
     { "parameter_name": "ListNum",
       "value": "1" },
     { "parameter_name": "InsertText",
       "value": "low pb" }
  ]
}

Campos
action_name

string

Nome da ação detectada.

confidence

float

Estimativa de confiança entre 0,0 e 1,0. Um número maior indica uma probabilidade maior de que essa seja a ação de voz especificada.

params[]

RecognizedActionParameter

Lista de parâmetros para a ação detectada.

RecognizedActionParameter

Representa um parâmetro de ação.

Campos
parameter_name

string

O nome do parâmetro de ação, por exemplo, FromText.

value

string

O valor do parâmetro de ação, por exemplo, Foo.

SpeechConfig

Registro de configuração para dar suporte a treinamento e adaptações. Falantes humanos reais podem compartilhar uma configuração do SpeechConfig ou cada um pode ter configurações separadas.

Campos
name

string

Nome do recurso do Config, no formato projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/speechConfigs/{speech_config_id}. Atribuído pelo servidor.

recognition_config

RecognitionConfig

São fornecidas informações ao reconhecedor que especificam como processar a solicitação.

speaker_external_id

string

ID em um sistema externo que pode ser usado para selecionar uma configuração específica.

speaker_human_name

string

Nome humano quando fornecido.

SpeechRecognitionResult

Resultado de reconhecimento de fala correspondente a uma parte do áudio.

Campos
transcript

string

Apenas saída. Texto transcrito representando as palavras que o usuário falou.

confidence

float

Apenas saída. Estimativa de confiança entre 0,0 e 1,0. Um número mais alto indica maior probabilidade estimada de que as palavras reconhecidas estejam corretas. Não há garantias quanto à precisão do campo. É recomendável que os usuários não dependam da disponibilidade dele. O padrão de 0,0 é um valor de sentinela indicando que confidence não foi definido.

words[]

WordInfo

Apenas saída. Uma lista de informações específicas de cada palavra reconhecida.

channel_tag

int32

Para o áudio multicanal, este é o número do canal correspondente ao resultado reconhecido para o áudio desse canal. Para audio_channel_count = N, os valores de saída podem variar de "1" a "N".

action

RecognizedAction

Ação de voz detectada durante o reconhecimento.

StreamingRecognitionResult

Resultado de reconhecimento de fala em streaming correspondente a uma parte do áudio que está sendo processado no momento.

Campos
speech_recognition_result

SpeechRecognitionResult

Apenas saída. Resultados incrementais de reconhecimento de fala. Os resultados ainda podem mudar, desde que is_final seja retornado como false. Depois que os resultados estiverem completamente estáveis, os resultados serão anexados ao recurso note armazenado e is_final será definido como true.

is_final

bool

Apenas saída. Se false, este StreamingRecognitionResult representa um resultado intermediário que pode ser alterado. Se true, esta é a última vez que o serviço de fala retornará esse StreamingRecognitionResult específico. O reconhecedor não retornará outras hipóteses para essa parte da transcrição e o áudio correspondente.

stability

float

Apenas saída. Estimativa da probabilidade de o reconhecedor não alterar o palpite sobre esse resultado provisório. Os valores variam de 0,0 (completamente instável) a 1,0 (completamente estável). Este campo é fornecido apenas para resultados temporários (is_final=false). O padrão de 0,0 é um valor de sentinela indicando que stability não foi definido.

StreamingRecognizeRequest

A mensagem de nível superior enviada pelo cliente para o método [StreamingRecognize] [google.cloud.health,00.v1alpha2.dictation.StreamingRecognize]. Várias mensagens StreamingRecognizeRequest são enviadas. A primeira mensagem precisa conter uma mensagem stream_setup_info e não pode conter dados audio_content. Todas as mensagens subsequentes precisam conter dados audio_content e não podem conter uma mensagem stream_setup_info.

Campos
Campo de união streaming_request. A solicitação de streaming, que é uma informação de configuração de streaming ou conteúdo de áudio. streaming_request pode ser apenas de um dos tipos a seguir:
stream_setup_info

RecognizeRequest

São fornecidas informações ao reconhecedor que especificam como processar a solicitação. A primeira mensagem do StreamingRecognizeRequest precisa conter uma mensagem stream_setup_info.

audio_content

bytes

Dados de áudio a serem reconhecidos. Pedaços sequenciais de dados de áudio devem ser enviados em mensagens StreamingRecognizeRequest sequenciais. A primeira mensagem StreamingRecognizeRequest não pode conter dados audio_content, e todas as mensagens StreamingRecognizeRequest subsequentes precisam conter dados audio_content. Os bytes de áudio precisam ser codificados conforme especificado em RecognizeRequest. Observação: como em todos os campos de bytes, os protobuffers usam uma representação binária pura, não base64. Consulte os limites de áudio.

StreamingRecognizeResponse

StreamingRecognizeResponse é a única mensagem retornada ao cliente por [StreamingRecognize] [google.cloud.health,00.v1alpha2.dictation.StreamingRecognize]. Uma série de zero ou mais mensagens StreamingRecognizeResponse é transmitida de volta para o cliente. Se não houver áudio reconhecível e single_utterance for definido como falso, nenhuma mensagem será transmitida de volta para o cliente.

Veja um exemplo de uma série de StreamingRecognizeResponse s que podem ser retornados durante o processamento de áudio:

  1. resultados {Speech_recognition_result {transcript: "vídeos"} estabilidade: 0,01}

  2. resulta em {Speech_recognition_result {transcript: "to be a"} estabilidade: 0,01}

  3. resultados {Speech_recognition_result {transcript: "to be"} estabilidade: 0,9} resultados {Speech_recognition_result {transcript: "or not to be"} estabilidade: 0,01}

  4. resulta em {Speech_recognition_result {transcript: "ser ou não ser" confiança: 0,92} is_final: true}

  5. resulta em {Speech_recognition_result {transcript: "’s "} estabilidade: 0,01}

  6. resultados {Speech_recognition_result {transcript: "is is"} estabilidade: 0.9} resultados {Speech_recognition_result {transcript: "the question"} estabilidade: 0,01}

  7. resulta em {Speech_recognition_result {transcript: "Essa é a pergunta" confiança: 098} is_final: true}

Observações:

  • Apenas duas das respostas (nº 4 e nº 7) contêm resultados finais, conforme indicado pelo campo is_final: true. Concatenar as respostas gera a transcrição completa: "ser ou não ser essa é a pergunta".

  • As outras respostas contêm results. #3 e #6 contêm dois results temporários: a primeira parte tem uma alta estabilidade e é menos provável que mude; a segunda parte tem baixa estabilidade e é muito provável que mude.

  • Os valores stability e confidence específicos mostrados acima são apenas para fins ilustrativos. Os valores reais podem variar.

  • Em cada resposta, apenas um destes campos será definido: error, speech_event_type ou um ou mais (repetidos) results.

Campos
error

Status

Apenas saída. Status de erro associado à operação de streaming, se houver.

results[]

StreamingRecognitionResult

Apenas saída. Essa lista repetida contém zero ou mais resultados que correspondem a porções consecutivas do áudio em processamento no momento. Ele contém zero ou um resultado is_final=true (a parte recém-definida), seguido por zero ou mais resultados is_final=false (os resultados intermediários).

speech_event_type

SpeechEventType

Apenas saída. Indica o tipo de evento de fala.

SpeechEventType

Indica o tipo de evento de fala.

Enums
SPEECH_EVENT_TYPE_UNSPECIFIED Nenhum evento de fala especificado.
END_OF_SINGLE_UTTERANCE Esse evento indica que o servidor detectou o fim da fala do usuário e não espera nenhuma fala adicional. Portanto, o servidor não processará áudio adicional, ainda que possa retornar resultados adicionais posteriormente. O cliente deve parar de enviar dados de áudio adicionais, fechar a metade da conexão gRPC e aguardar quaisquer resultados adicionais até o servidor fechar a conexão gRPC. Este evento só é enviado se single_utterance foi definido como true e não é usado de outra forma.

TrainingConsent

Especifica o tipo de consentimento dado para melhorar o reconhecimento de fala.

Enums
ALLOW Consentimento para treinar.
DISALLOW Sem consentimento para treinar.

UpdateDictationRequest

Solicitação para atualizar o Dictation fornecido.

Campos
dictation

Dictation

O recurso de ditado que atualiza o recurso no servidor. Somente os campos listados em update_mask serão obrigatórios ou aplicados.

A autorização requer a seguinte permissão do Google IAM no recurso especificado dictation:

  • healthcare.dictations.update

update_mask

FieldMask

A máscara de atualização aplica-se ao recurso. Para a definição de FieldMask, consulte https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask

UpdateDictationStoreRequest

Atualiza o Dictation store.

Campos
dictation_store

DictationStore

O recurso de armazenamento de ditado que atualiza o recurso no servidor. Somente os campos listados em update_mask serão aplicados.

A autorização requer a seguinte permissão do Google IAM no recurso especificado dictationStore:

  • healthcare.dictationStores.update

update_mask

FieldMask

A máscara de atualização aplica-se ao recurso. Para a definição de FieldMask, consulte https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask

UpdateNoteRequest

Solicitação para atualizar o Note fornecido, por exemplo, para atualizar o SpeechConfig.

Campos
note

Note

O recurso Note que atualiza o recurso no servidor. Somente os campos listados em update_mask serão obrigatórios ou aplicados. Não é possível atualizar uma Observação com o tipo AUTOMÁTICO. Uma nota não pode ser atualizada para ter o tipo AUTOMÁTICO.

A autorização requer a seguinte permissão do Google IAM no recurso especificado note:

  • healthcare.dictations.update

update_mask

FieldMask

A máscara de atualização aplica-se ao recurso. Para a definição de FieldMask, consulte https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask

UpdateSpeechConfigRequest

Solicitação para atualizar o SpeechConfig fornecido, por exemplo, para atualizar o idioma.

Campos
speech_config

SpeechConfig

O recurso SpeechConfig que atualiza o recurso no servidor. Somente os campos listados em update_mask serão obrigatórios ou aplicados.

A autorização requer a seguinte permissão do Google IAM no recurso especificado speechConfig:

  • healthcare.speechConfigs.update

update_mask

FieldMask

A máscara de atualização aplica-se ao recurso. Para a definição de FieldMask, consulte https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask

WordInfo

Informações específicas de palavras reconhecidas.

Campos
start_time_offset

Duration

Apenas saída. Ajuste de horário relativo ao início do áudio e correspondente ao início da palavra falada. Este campo só é definido se enable_word_time_offsets=true e apenas na hipótese superior. Este é um recurso experimental e a precisão do ajuste de horário pode variar.

end_time_offset

Duration

Apenas saída. Ajuste de horário relativo ao início do áudio e correspondente ao final da palavra falada. Este campo só é definido se enable_word_time_offsets=true e apenas na hipótese superior. Este é um recurso experimental e a precisão do ajuste de horário pode variar.

word

string

Apenas saída. A palavra correspondente a este conjunto de informações.

confidence

float

Apenas saída. Estimativa de confiança entre 0,0 e 1,0. Um número mais alto indica maior probabilidade estimada de que as palavras reconhecidas estejam corretas. Não há garantias quanto à precisão do campo. É recomendável que os usuários não dependam da disponibilidade dele. O padrão de 0,0 é um valor de sentinela indicando que confidence não foi definido.