Index
DictationService
(interface)CreateDictationRequest
(mensagem)CreateDictationStoreRequest
(mensagem)CreateNoteRequest
(mensagem)CreateSpeechConfigRequest
(mensagem)DeleteDictationRequest
(mensagem)DeleteDictationStoreRequest
(mensagem)DeleteNoteRequest
(mensagem)DeleteSpeechConfigRequest
(mensagem)Dictation
(mensagem)DictationStore
(mensagem)GetDictationRequest
(mensagem)GetDictationStoreRequest
(mensagem)GetNoteRequest
(mensagem)GetSpeechConfigRequest
(mensagem)ListDictationStoresRequest
(mensagem)ListDictationStoresResponse
(mensagem)ListDictationsRequest
(mensagem)ListDictationsResponse
(mensagem)ListNotesRequest
(mensagem)ListNotesResponse
(mensagem)ListSpeechConfigsRequest
(mensagem)ListSpeechConfigsResponse
(mensagem)Note
(mensagem)Note.Type
(enum)RecognitionAudio
(mensagem)RecognitionConfig
(mensagem)RecognitionConfig.AudioEncoding
(enum)RecognizeRequest
(mensagem)RecognizeResponse
(mensagem)RecognizedAction
(mensagem)RecognizedActionParameter
(mensagem)SpeechConfig
(mensagem)SpeechRecognitionResult
(mensagem)StreamingRecognitionResult
(mensagem)StreamingRecognizeRequest
(mensagem)StreamingRecognizeResponse
(mensagem)StreamingRecognizeResponse.SpeechEventType
(enum)TrainingConsent
(enum)UpdateDictationRequest
(mensagem)UpdateDictationStoreRequest
(mensagem)UpdateNoteRequest
(mensagem)UpdateSpeechConfigRequest
(mensagem)WordInfo
(mensagem)
DictationService
Um serviço para lidar com solicitações de ditado médico. Os dados de ditado são armazenados junto com outras formas de saúde nos conjuntos de dados. Cada conjunto de dados pode ter zero ou mais armazenamentos de dados de modificação, por exemplo, dictation stores
. O áudio de ditado (Dictations
) e os resultados transcritos (Notes
) são os dois principais tipos de dados armazenados em armazenamentos de ditado. SpeechConfigs
estão codificando os parâmetros usados para o reconhecimento automático de fala.
CreateDictation | |
---|---|
Cria um novo registro
|
CreateDictationStore | |
---|---|
Cria um novo
|
CreateNote | |
---|---|
Cria um
|
CreateSpeechConfig | |
---|---|
Cria um
|
DeleteDictation | |
---|---|
Exclui um
|
DeleteDictationStore | |
---|---|
Exclui o
|
DeleteNote | |
---|---|
Exclui um
|
DeleteSpeechConfig | |
---|---|
Exclui um
|
GetDictation | |
---|---|
Recebe um
|
GetDictationStore | |
---|---|
Recebe o
|
GetIamPolicy | |
---|---|
Busca a política de controle de acesso a um recurso. Retorna o erro NOT_FOUND se o recurso não existir. Retorna uma política vazia se o recurso existir, mas não tiver um conjunto de políticas. A autorização requer a permissão
|
GetNote | |
---|---|
Recebe um
|
GetSpeechConfig | |
---|---|
Recebe uma configuração
|
ListDictationStores | |
---|---|
Lista o
|
ListDictations | |
---|---|
Lista o
|
ListNotes | |
---|---|
Lista todos os
|
ListSpeechConfigs | |
---|---|
Lista todos os
|
Recognize | |
---|---|
Executa reconhecimento de fala assíncrono: recebe resultados por meio da interface
|
SetIamPolicy | |
---|---|
Define a política de controle de acesso de um recurso. Substitui qualquer política atual. A autorização requer a permissão
|
StreamingRecognize | |
---|---|
Executa o reconhecimento de fala em streaming bidirecional, que permite que o cliente receba resultados ao enviar áudio. Esse método só está disponível por meio da API gRPC (não REST). O áudio enviado por meio desse método é adicionado ao
|
TestIamPermissions | |
---|---|
Retorna permissões do autor da chamada no recurso especificado. Se o recurso não estiver presente, isso retornará um conjunto vazio de permissões, não um erro NOT_FOUND. Não é necessária permissão para fazer essa chamada de API.
|
UpdateDictation | |
---|---|
Atualiza o
|
UpdateDictationStore | |
---|---|
Atualiza o
|
UpdateNote | |
---|---|
Atualiza o
|
UpdateSpeechConfig | |
---|---|
Atualiza o
|
CreateDictationRequest
Cria um registro Dictation
com amostras de áudio e o adiciona a Dictation store
.
Campos | |
---|---|
parent |
O nome do armazenamento de ditados ao qual o ditado pertence. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
dictation |
Ditado |
return_mask |
A máscara de retorno se aplica ao recurso de ditado retornado. Para a definição de |
CreateDictationStoreRequest
Cria um Dictation store
novo.
Campos | |
---|---|
parent |
O nome do conjunto de dados ao qual o armazenamento de ditado pertence. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
dictation_store_id |
O ID do armazenamento de ditado que está sendo criado. A string precisa corresponder à seguinte regex: |
dictation_store |
Informações de configuração deste armazenamento de Ditado. |
CreateNoteRequest
Campos | |
---|---|
parent |
O nome do ditado ao qual esta nota pertence. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
note |
Nota a ser criada. |
return_mask |
A máscara de atualização se aplica ao recurso de nota retornado. Para a definição de |
CreateSpeechConfigRequest
Cria um registro SpeechConfig
, incluindo a confirmação de reconhecimento, e o adiciona a Dictation store
.
Campos | |
---|---|
parent |
O nome do armazenamento de ditado ao qual o speech_config pertence. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
speech_config |
SpeechConfig |
DeleteDictationRequest
Exclui um Dictation
do Dictation store
especificado.
Campos | |
---|---|
name |
O nome do recurso do ditado a ser excluído. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
DeleteDictationStoreRequest
Exclui o Dictation store
especificado.
Campos | |
---|---|
name |
O nome do recurso do armazenamento de ditado a ser excluído. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
DeleteNoteRequest
Campos | |
---|---|
name |
O nome do recurso da nota a ser excluída. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
DeleteSpeechConfigRequest
Exclui uma configuração SpeechConfig
do Dictation store
especificado.
Campos | |
---|---|
name |
O nome do recurso da configuração do SpeechConfig a ser excluído. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
Ditado
Um ditado de áudio.
Campos | |
---|---|
name |
Nome do recurso do ditado, no formato |
audio |
Quando retornado na resposta GetDictation, apresenta conteúdo de áudio na representação binária. O campo de áudio não está incluído nas respostas CreateDictation e UpdateDictation. |
create_time |
Apenas saída. A hora em que o ditado foi criado. |
training_consent |
Especifique ALLOW para permitir o uso desse ditado e de suas notas para melhorar o reconhecimento de fala. Esse valor modifica o valor do campo training_consent no DictationStore pai. Se esse valor for omitido, o valor do campo training_consent em DictationStore será usado. |
DictationStore
Um armazenamento de ditado que pode armazenar outros recursos relacionados a ditado, como ditados, notas e SpeechConfigs
.
Campos | |
---|---|
name |
Apenas saída. Nome do recurso do armazenamento de ditado, no formato |
pubsub_topic |
O tópico do Cloud Pub/Sub em que as notificações de alterações em ditados e notas são publicadas. PubsubMessage.Data conterá o nome do recurso "Dictation" ou "Note". PubsubMessage.Attributes conterá um mapa com uma string que descreve a ação que acionou a notificação, por exemplo, "action":"CreateDictation". As notificações só são enviadas se o tópico não estiver vazio. Os nomes de tópicos precisam ter escopo para um projeto. Essa API precisa ter permissões de editor no tópico do Cloud Pub/Sub fornecido. Não ter permissões adequadas fará com que as chamadas que enviam notificações falhem. Fornecido pelo cliente. |
training_consent |
Especifique ALLOW para permitir o uso de recursos neste armazenamento para melhorar o reconhecimento de fala. As exclusões ainda podem ser especificadas para cada Dictation usando o campo Dictation.training_consent, que substituirá o valor especificado no DictationStore. Isso é tratado como DESATIVADO quando não especificado. |
labels |
Os pares de valores-chave fornecidos pelo usuário são usados para organizar os armazenamentos de ditado. As chaves de rótulo precisam ter entre 1 e 63 caracteres, ter uma codificação UTF-8 de no máximo 128 bytes e estar em conformidade com a seguinte expressão regular PCRE: [\p{Ll}\p{Lo}][\p{Ll}\p{Lo}\p{N}_-]{0,62} s valores dos rótulos são opcionais, precisam ter entre 1 e 63 caracteres, ter uma codificação UTF-8 de no máximo 128 bytes e estar em conformidade com a seguinte expressão regular PCRE: [\p{Ll}\p{Lo}\p{N}_-]{0,63} Não é possível associar mais de 64 rótulos a um determinado armazenamento. |
GetDictationRequest
Recebe um Dictation
do Dictation store
especificado.
Campos | |
---|---|
name |
O nome do recurso do ditado a ser recuperado. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
GetDictationStoreRequest
Recebe um Dictation store
.
Campos | |
---|---|
name |
O nome do recurso do armazenamento de ditado a ser recebido. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
GetNoteRequest
Campos | |
---|---|
name |
O nome do recurso da nota a ser recuperada. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
GetSpeechConfigRequest
Recebe um registro SpeechConfig
do Dictation store
especificado.
Campos | |
---|---|
name |
O nome do recurso da configuração de SpeechConfig a ser recuperada. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
ListDictationStoresRequest
Lista o Dictation stores
no conjunto de dados fornecido.
Campos | |
---|---|
parent |
Nome do conjunto de dados. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
page_size |
Limite do número de armazenamentos de ditado a serem retornados em uma única resposta. Se zero, o tamanho de página padrão de 100 será usado. |
page_token |
O valor next_page_token retornado da solicitação de lista anterior, se houver. |
filter |
Restringe os armazenamentos retornados àquelas que correspondem a um filtro. Sintaxe: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Só é possível filtrar rótulos, por exemplo |
ListDictationStoresResponse
Lista o Dictation stores
no conjunto de dados fornecido.
Campos | |
---|---|
dictation_stores[] |
Os armazenamentos de ditado retornados. Não será mais armazenamentos de ditado do que o valor de page_size na solicitação. |
next_page_token |
Token para recuperar a próxima página de resultados ou vazia se não houver mais resultados na lista. |
ListDictationsRequest
Lista o Dictations
no Dictation store
especificado.
Campos | |
---|---|
parent |
Nome do armazenamento de ditados de onde eles são recuperados. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
page_size |
Limite do número de ditados a serem retornados em uma única resposta. Caso seja definido como zero, será usado o tamanho de página padrão de 100. |
page_token |
O valor next_page_token retornado da solicitação de lista anterior, se houver. |
filter |
Restringe os ditados retornados àqueles que correspondem a um filtro. Sintaxe: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Os campos/funções disponíveis para o filtro são: - use_for_speech_training |
ListDictationsResponse
Lista o Dictations
no Dictation store
especificado.
Campos | |
---|---|
dictation_names[] |
Os nomes de ditados retornados. Não terá mais valores do que o valor de page_size na solicitação. |
next_page_token |
Token para recuperar a próxima página de resultados ou vazia se não houver mais resultados na lista. |
ListNotesRequest
Campos | |
---|---|
parent |
Nome do ditado do qual recuperar notas. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
page_size |
Limite do número de notas a serem retornadas em uma única resposta. Se zero, o tamanho de página padrão de 100 será usado. |
page_token |
O valor next_page_token retornado da solicitação de lista anterior, se houver. |
filter |
Restringe as notas retornadas àquelas que correspondem a um filtro. Sintaxe: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Os campos/funções disponíveis para filtragem são: - type - origin - speech_config_name - speaker_external_id - speaker_human_name |
ListNotesResponse
Campos | |
---|---|
note_names[] |
Os nomes das notas retornados. Não terá mais valores do que o valor de page_size na solicitação. |
next_page_token |
Token para recuperar a próxima página de resultados ou vazia se não houver mais resultados na lista. |
ListSpeechConfigsRequest
Lista o SpeechConfigs
no Dictation store
especificado.
Campos | |
---|---|
parent |
Nome do armazenamento de ditado do qual recuperar SpeechConfigs. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
page_size |
Limite do número de SpeechConfigs a serem retornados em uma única resposta. Se zero, o tamanho de página padrão de 100 será usado. |
page_token |
O valor next_page_token retornado da solicitação de lista anterior, se houver. |
filter |
Restringe o SpeechConfigs retornado aos que correspondem a um filtro. Sintaxe: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Os campos/funções disponíveis para filtragem são: - speaker_external_id - speaker_human_name |
ListSpeechConfigsResponse
Lista o SpeechConfigs
no Dictation store
especificado.
Campos | |
---|---|
speech_config_names[] |
Os nomes de SpeechConfigs retornados. Não terá mais valores do que o valor de page_size na solicitação. |
next_page_token |
Token para recuperar a próxima página de resultados ou vazia se não houver mais resultados na lista. |
Nota
A nota pode representar resultados de reconhecimento de fala ou inserida como uma fonte de verdade para facilitar o treinamento adicional dos modelos de reconhecimento de fala, bem como o armazenamento para transcrições finais corrigidas.
Campos | |
---|---|
name |
Nome do recurso da Observação, no formato |
speech_config_name |
SpeechConfig usado para produzir essa nota do formulário |
type |
Tipo de nota. |
origin |
Origem dos resultados de reconhecimento, por exemplo, modelo específico usado. |
speech_recognition_results[] |
Lista sequencial de resultados de transcrição correspondentes a partes sequenciais de áudio, como trechos de áudio falados por falantes que se revezam em uma caixa de diálogo. |
create_time |
A hora em que a nota foi criada. Definido pelo servidor. |
Tipo
Tipo de nota.
Enums | |
---|---|
TYPE_UNSPECIFIED |
Tipo inválido ou não especificado. |
VERBATIM |
Observação que pode ser usada como uma "verdade" para o áudio do ditado. |
CORRECTION |
Correções na nota gerada por uma chamada para "Reconhecer". |
DRAFT |
Rascunho de nota que ainda pode ser atualizado antes de gerar uma nota final. |
FINAL |
Observação final aprovada. |
AUTO_RECOGNIZED |
Apenas saída. Observação gerada por uma chamada para "Reconhecer". Não é possível criar uma Observação com o tipo AUTOMÁTICO com o CreateNote. Uma Observação com o tipo AUTOMÁTICO não pode ser atualizada com UpdateNote. Uma Observação não pode ser atualizada com UpdateNote para ter o tipo AUTOMÁTICO. |
RecognitionAudio
Contém dados de áudio na codificação especificada no RecognitionConfig
. É necessário fornecer content
ou uri
. Fornecer ambos ou nenhum retorna google.rpc.Code.INVALID_ARGUMENT
. Consulte os limites de áudio.
Campos | ||
---|---|---|
Campo de união audio_source . A fonte de áudio, que é conteúdo in-line ou um URI do Cloud Storage. audio_source pode ser apenas de um dos tipos a seguir: |
||
content |
Os bytes de dados de áudio codificados conforme especificado em |
|
uri |
URI que aponta para um arquivo com bytes de dados de áudio, conforme especificado em |
RecognitionConfig
São fornecidas informações ao reconhecedor que especificam como processar a solicitação.
Campos | |
---|---|
encoding |
Codificação de dados de áudio enviados em todas as mensagens |
sample_rate_hertz |
Taxa de amostragem em Hertz dos dados de áudio enviados em todas as mensagens |
audio_channel_count |
O número de canais nos dados de áudio de entrada. Defina SOMENTE para reconhecimento MULTICANAIS. Os valores válidos para LINEAR16 e FLAC são |
enable_separate_recognition_per_channel |
Precisa ser definido como "verdadeiro" de maneira explícita e audio_channel_count > 1 para que cada canal seja reconhecido separadamente.Número de registros com erros associados ao enum. O resultado do reconhecimento conterá um campo "channel_tag" para indicar a qual canal o resultado pertence. Se não for verdadeiro, somente o primeiro canal será reconhecido. |
language_code |
Idioma do áudio fornecido como uma tag de idioma BCP-47. Exemplo: "en-US". Para uma lista dos códigos de idioma compatíveis atualmente, consulte o Suporte de idioma. |
context_phrases[] |
Uma lista de strings contendo "dicas" de palavras e frases para que o reconhecimento de fala seja mais provável. Isso pode ser usado para melhorar a precisão de palavras e frases específicas, por exemplo, se comandos específicos forem normalmente falados pelo usuário. Isso também pode ser usado para adicionar palavras ao vocabulário do reconhecedor. |
model |
Qual modelo selecionar para a solicitação especificada. Se um modelo não for especificado explicitamente, o valor padrão "default" será usado. |
AudioEncoding
A codificação dos dados de áudio enviados na solicitação.
Todas as codificações são compatíveis com apenas 1 canal (mono) de áudio.
Para melhores resultados, a fonte de áudio precisa ser capturada e transmitida usando uma codificação sem perdas (FLAC
ou LINEAR16
). A precisão do reconhecimento de fala pode ser reduzida se codecs com perdas forem usados para capturar ou transmitir áudio, especialmente se houver ruído de fundo. MULAW
, AMR
, AMR_WB
, OGG_OPUS
e SPEEX_WITH_HEADER_BYTE
são codecs com perdas.
Os formatos de arquivo de áudio FLAC
e WAV
incluem um cabeçalho que descreve o conteúdo de áudio incluído. Você pode solicitar o reconhecimento para arquivos WAV
que contêm áudio codificado com LINEAR16
ou MULAW
. Se você enviar o formato de arquivo de áudio FLAC
ou WAV
na solicitação, não será necessário especificar um AudioEncoding
. o formato de codificação de áudio é determinado no cabeçalho do arquivo. Se você especificar um AudioEncoding
ao enviar áudio FLAC
ou WAV
, a configuração de codificação precisará corresponder à codificação descrita no cabeçalho de áudio. Caso contrário, a solicitação retornará um código de erro google.rpc.Code.INVALID_ARGUMENT
.
Enums | |
---|---|
ENCODING_UNSPECIFIED |
Não especificado. |
LINEAR16 |
Amostras pouco elaboradas de 16 bits sem compactação (PCM Linear). |
FLAC |
FLAC (Free Lossless Audio Codec) é a codificação recomendada porque não tem perdas. Portanto, o reconhecimento não é comprometido e requer apenas cerca de metade da largura de banda do LINEAR16 . A codificação de stream FLAC é compatível com amostras de 16 bits e 24 bits. No entanto, nem todos os campos no STREAMINFO são compatíveis. |
MULAW |
Amostras de 8 bits resultantes do compand de amostras de áudio de 14 bits em que foi usado G.711 PCMU/mu-law. |
AMR |
Codec de banda estreita multitaxa adaptável. sample_rate_hertz precisa ser 8.000. |
AMR_WB |
Codec de banda larga multitaxa adaptável. sample_rate_hertz precisa ser 16.000. |
OGG_OPUS |
Frames de áudio codificados pelo Opus no contêiner Ogg (OggOpus). sample_rate_hertz precisa ser 8.000, 12.000, 16.000, 24.000 ou 48.000. |
SPEEX_WITH_HEADER_BYTE |
Ainda que o uso de codificações com perdas não seja recomendado, se for necessária uma codificação de bitrate muito baixa, OGG_OPUS é altamente preferível em relação à codificação Speex. A codificação Speex compatível com a Cloud Speech API tem um byte de cabeçalho em cada bloco, como no tipo MIME audio/x-speex-with-header-byte . É uma variante da codificação RTP Speex definida no RFC 5574. O stream é uma sequência de blocos, um bloco por pacote RTP. No início de cada bloco, há um byte contendo o comprimento do bloco em bytes, seguido de um ou mais frames de dados Speex, preenchidos com um número inteiro de bytes (octetos) conforme especificado no RFC 5574. Em outras palavras, cada cabeçalho RTP é substituído por um único byte contendo o comprimento do bloco. Somente a banda larga Speex é compatível. sample_rate_hertz precisa ser 16.000. |
RecognizeRequest
Envia um Dictation
para o mecanismo de reconhecimento de fala. Cria um registro Note
e o adiciona a Dictation
.
Campos | |
---|---|
name |
O nome do recurso do ditado a ser transcrito. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
speech_config_name |
Configuração do SpeechConfig a ser usada na solicitação de reconhecimento. A configuração de fala pode ser fornecida como um caminho REST completo: A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
enable_voice_actions |
Determina se o mecanismo de reconhecimento deve procurar ações de voz. |
RecognizeResponse
Resposta final do método Recognize em um Dictation
. Essa estrutura será incluída no google.longrunning.Operation.result.response
para descrever o resultado detalhado da execução do Recognize
. Ele será incluído somente quando a execução for concluída.
Campos | |
---|---|
note_name |
O nome do recurso da |
RecognizedAction
A ação de voz detectada durante o reconhecimento.
As ações possíveis estão listadas na tabela abaixo.
Ação por voz | RecognizedAction |
Seleção de texto. Por exemplo, selecione hemoglobina para o paciente |
{ "action_name": "TextSelection", "confidence": 1.0, "param_results": [ { "parameter_name": "FromText", "value": "hemoglobin" }, { "parameter_name": "ToText", "value": "patient" } ] } |
Remover seleção de texto. Por exemplo, desmarque esta opção |
{ "action_name": "RemoveSelection", "confidence": 1.0 } |
Excluir última expressão ou frase atual Por exemplo, desfazer |
{ "action_name": "Undo", "confidence": 0.8 } |
Inserir nova linha Por exemplo, nova linha |
{ "action_name": "NewLine", "confidence": 1.0 } |
Inserir novo parágrafo Por exemplo, novo parágrafo |
{ "action_name": "NewParagraph", "confidence": 1.0 } |
Mover o cursor para uma palavra anterior Por exemplo, insira antes da hemoglobina |
{ "action_name": "InsertAt", "confidence": 0.5, "param_results": [ { "parameter_name": "InsertLocation", "value": "before" }, { "parameter_name": "InsertTarget", "value": "hemoglobin" } ] } |
Mover cursor Por exemplo, vá para o fim da frase. |
{ "action_name": "MoveCursor", "confidence": 0.6, "param_results": [ { "parameter_name": "MoveLocation", "value": "end" }, { "parameter_name": "MoveTarget", "value": "sentence" } ] } |
Criar uma lista em que o cursor está Por exemplo, inserir número 1 bp baixo |
{ "action_name": "CreateList", "confidence": 0.6, "param_results": [ { "parameter_name": "ListNum", "value": "1" }, { "parameter_name": "InsertText", "value": "low pb" } ] } |
Campos | |
---|---|
action_name |
Nome da ação detectada. |
confidence |
Estimativa de confiança entre 0,0 e 1,0. Um número maior indica uma probabilidade maior de que essa seja a ação de voz especificada. |
params[] |
Lista de parâmetros para a ação detectada. |
RecognizedActionParameter
Representa um parâmetro de ação.
Campos | |
---|---|
parameter_name |
O nome do parâmetro de ação, por exemplo, |
value |
O valor do parâmetro de ação, por exemplo, |
SpeechConfig
Registro de configuração para dar suporte a treinamento e adaptações. Falantes humanos reais podem compartilhar uma configuração do SpeechConfig ou cada um pode ter configurações separadas.
Campos | |
---|---|
name |
Nome do recurso do Config, no formato |
recognition_config |
São fornecidas informações ao reconhecedor que especificam como processar a solicitação. |
speaker_external_id |
ID em um sistema externo que pode ser usado para selecionar uma configuração específica. |
speaker_human_name |
Nome humano quando fornecido. |
SpeechRecognitionResult
Resultado de reconhecimento de fala correspondente a uma parte do áudio.
Campos | |
---|---|
transcript |
Apenas saída. Texto transcrito representando as palavras que o usuário falou. |
confidence |
Apenas saída. Estimativa de confiança entre 0,0 e 1,0. Um número mais alto indica maior probabilidade estimada de que as palavras reconhecidas estejam corretas. Não há garantias quanto à precisão do campo. É recomendável que os usuários não dependam da disponibilidade dele. O padrão de 0,0 é um valor de sentinela indicando que |
words[] |
Apenas saída. Uma lista de informações específicas de cada palavra reconhecida. |
channel_tag |
Para o áudio multicanal, este é o número do canal correspondente ao resultado reconhecido para o áudio desse canal. Para audio_channel_count = N, os valores de saída podem variar de "1" a "N". |
action |
Ação de voz detectada durante o reconhecimento. |
StreamingRecognitionResult
Resultado de reconhecimento de fala em streaming correspondente a uma parte do áudio que está sendo processado no momento.
Campos | |
---|---|
speech_recognition_result |
Apenas saída. Resultados incrementais de reconhecimento de fala. Os resultados ainda podem mudar, desde que |
is_final |
Apenas saída. Se |
stability |
Apenas saída. Estimativa da probabilidade de o reconhecedor não alterar o palpite sobre esse resultado provisório. Os valores variam de 0,0 (completamente instável) a 1,0 (completamente estável). Este campo é fornecido apenas para resultados temporários ( |
StreamingRecognizeRequest
A mensagem de nível superior enviada pelo cliente para o método [StreamingRecognize] [google.cloud.health,00.v1alpha2.dictation.StreamingRecognize]. Várias mensagens StreamingRecognizeRequest
são enviadas. A primeira mensagem precisa conter uma mensagem stream_setup_info
e não pode conter dados audio_content
. Todas as mensagens subsequentes precisam conter dados audio_content
e não podem conter uma mensagem stream_setup_info
.
Campos | ||
---|---|---|
Campo de união streaming_request . A solicitação de streaming, que é uma informação de configuração de streaming ou conteúdo de áudio. streaming_request pode ser apenas de um dos tipos a seguir: |
||
stream_setup_info |
São fornecidas informações ao reconhecedor que especificam como processar a solicitação. A primeira mensagem do |
|
audio_content |
Dados de áudio a serem reconhecidos. Pedaços sequenciais de dados de áudio devem ser enviados em mensagens |
StreamingRecognizeResponse
StreamingRecognizeResponse
é a única mensagem retornada ao cliente por [StreamingRecognize] [google.cloud.health,00.v1alpha2.dictation.StreamingRecognize]. Uma série de zero ou mais mensagens StreamingRecognizeResponse
é transmitida de volta para o cliente. Se não houver áudio reconhecível e single_utterance
for definido como falso, nenhuma mensagem será transmitida de volta para o cliente.
Veja um exemplo de uma série de StreamingRecognizeResponse
s que podem ser retornados durante o processamento de áudio:
resultados {Speech_recognition_result {transcript: "vídeos"} estabilidade: 0,01}
resulta em {Speech_recognition_result {transcript: "to be a"} estabilidade: 0,01}
resultados {Speech_recognition_result {transcript: "to be"} estabilidade: 0,9} resultados {Speech_recognition_result {transcript: "or not to be"} estabilidade: 0,01}
resulta em {Speech_recognition_result {transcript: "ser ou não ser" confiança: 0,92} is_final: true}
resulta em {Speech_recognition_result {transcript: "’s "} estabilidade: 0,01}
resultados {Speech_recognition_result {transcript: "is is"} estabilidade: 0.9} resultados {Speech_recognition_result {transcript: "the question"} estabilidade: 0,01}
resulta em {Speech_recognition_result {transcript: "Essa é a pergunta" confiança: 098} is_final: true}
Observações:
Apenas duas das respostas (nº 4 e nº 7) contêm resultados finais, conforme indicado pelo campo
is_final: true
. Concatenar as respostas gera a transcrição completa: "ser ou não ser essa é a pergunta".As outras respostas contêm
results
. #3 e #6 contêm doisresults
temporários: a primeira parte tem uma alta estabilidade e é menos provável que mude; a segunda parte tem baixa estabilidade e é muito provável que mude.Os valores
stability
econfidence
específicos mostrados acima são apenas para fins ilustrativos. Os valores reais podem variar.Em cada resposta, apenas um destes campos será definido:
error
,speech_event_type
ou um ou mais (repetidos)results
.
Campos | |
---|---|
error |
Apenas saída. Status de erro associado à operação de streaming, se houver. |
results[] |
Apenas saída. Essa lista repetida contém zero ou mais resultados que correspondem a porções consecutivas do áudio em processamento no momento. Ele contém zero ou um resultado |
speech_event_type |
Apenas saída. Indica o tipo de evento de fala. |
SpeechEventType
Indica o tipo de evento de fala.
Enums | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Nenhum evento de fala especificado. |
END_OF_SINGLE_UTTERANCE |
Esse evento indica que o servidor detectou o fim da fala do usuário e não espera nenhuma fala adicional. Portanto, o servidor não processará áudio adicional, ainda que possa retornar resultados adicionais posteriormente. O cliente deve parar de enviar dados de áudio adicionais, fechar a metade da conexão gRPC e aguardar quaisquer resultados adicionais até o servidor fechar a conexão gRPC. Este evento só é enviado se single_utterance foi definido como true e não é usado de outra forma. |
TrainingConsent
Especifica o tipo de consentimento dado para melhorar o reconhecimento de fala.
Enums | |
---|---|
TRAINING_CONSENT_UNSPECIFIED |
Nenhum consentimento especificado. |
ALLOW |
Consentimento para treinar. |
DISALLOW |
Sem consentimento para treinar. |
UpdateDictationRequest
Solicitação para atualizar o Dictation
fornecido.
Campos | |
---|---|
dictation |
O recurso de ditado que atualiza o recurso no servidor. Somente os campos listados em update_mask serão obrigatórios ou aplicados. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
update_mask |
A máscara de atualização aplica-se ao recurso. Para a definição de |
UpdateDictationStoreRequest
Atualiza o Dictation store
.
Campos | |
---|---|
dictation_store |
O recurso de armazenamento de ditado que atualiza o recurso no servidor. Somente os campos listados em update_mask serão aplicados. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
update_mask |
A máscara de atualização aplica-se ao recurso. Para a definição de |
UpdateNoteRequest
Solicitação para atualizar o Note
fornecido, por exemplo, para atualizar o SpeechConfig.
Campos | |
---|---|
note |
O recurso Note que atualiza o recurso no servidor. Somente os campos listados em update_mask serão obrigatórios ou aplicados. Não é possível atualizar uma Observação com o tipo AUTOMÁTICO. Uma nota não pode ser atualizada para ter o tipo AUTOMÁTICO. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
update_mask |
A máscara de atualização aplica-se ao recurso. Para a definição de |
UpdateSpeechConfigRequest
Solicitação para atualizar o SpeechConfig
fornecido, por exemplo, para atualizar o idioma.
Campos | |
---|---|
speech_config |
O recurso SpeechConfig que atualiza o recurso no servidor. Somente os campos listados em update_mask serão obrigatórios ou aplicados. A autorização requer a seguinte permissão do Google IAM no recurso especificado
|
update_mask |
A máscara de atualização aplica-se ao recurso. Para a definição de |
WordInfo
Informações específicas de palavras reconhecidas.
Campos | |
---|---|
start_time_offset |
Apenas saída. Ajuste de horário relativo ao início do áudio e correspondente ao início da palavra falada. Este campo só é definido se |
end_time_offset |
Apenas saída. Ajuste de horário relativo ao início do áudio e correspondente ao final da palavra falada. Este campo só é definido se |
word |
Apenas saída. A palavra correspondente a este conjunto de informações. |
confidence |
Apenas saída. Estimativa de confiança entre 0,0 e 1,0. Um número mais alto indica maior probabilidade estimada de que as palavras reconhecidas estejam corretas. Não há garantias quanto à precisão do campo. É recomendável que os usuários não dependam da disponibilidade dele. O padrão de 0,0 é um valor de sentinela indicando que |