索引
DictationService
(接口)CreateDictationRequest
(消息)CreateDictationStoreRequest
(消息)CreateNoteRequest
(消息)CreateSpeechConfigRequest
(消息)DeleteDictationRequest
(消息)DeleteDictationStoreRequest
(消息)DeleteNoteRequest
(消息)DeleteSpeechConfigRequest
(消息)Dictation
(消息)DictationStore
(消息)GetDictationRequest
(消息)GetDictationStoreRequest
(消息)GetNoteRequest
(消息)GetSpeechConfigRequest
(消息)ListDictationStoresRequest
(消息)ListDictationStoresResponse
(消息)ListDictationsRequest
(消息)ListDictationsResponse
(消息)ListNotesRequest
(消息)ListNotesResponse
(消息)ListSpeechConfigsRequest
(消息)ListSpeechConfigsResponse
(消息)Note
(消息)Note.Type
(枚举)RecognitionAudio
(消息)RecognitionConfig
(消息)RecognitionConfig.AudioEncoding
(枚举)RecognizeRequest
(消息)RecognizeResponse
(消息)RecognizedAction
(消息)RecognizedActionParameter
(消息)SpeechConfig
(消息)SpeechRecognitionResult
(消息)StreamingRecognitionResult
(消息)StreamingRecognizeRequest
(消息)StreamingRecognizeResponse
(消息)StreamingRecognizeResponse.SpeechEventType
(枚举)TrainingConsent
(枚举)UpdateDictationRequest
(消息)UpdateDictationStoreRequest
(消息)UpdateNoteRequest
(消息)UpdateSpeechConfigRequest
(消息)WordInfo
(消息)
DictationService
用于处理医疗口录请求的服务。口录数据与其他医疗保健模式一起存储在数据集中。每个数据集可以有零个或多个模式数据存储区,例如 dictation stores
。口录语音 (Dictations
) 和转录结果 (Notes
) 是存储在口录存储区中的两种主要数据类型。SpeechConfigs
对用于自动语音识别的参数进行编码。
CreateDictation | |
---|---|
创建新的
|
CreateDictationStore | |
---|---|
在父数据集中创建新
|
CreateNote | |
---|---|
创建新
|
CreateSpeechConfig | |
---|---|
创建新
|
DeleteDictation | |
---|---|
删除
|
DeleteDictationStore | |
---|---|
删除指定的
|
DeleteNote | |
---|---|
删除现有
|
DeleteSpeechConfig | |
---|---|
删除
|
GetDictation | |
---|---|
获取
|
GetDictationStore | |
---|---|
获取指定的
|
GetIamPolicy | |
---|---|
获取资源的访问权限控制政策。如果资源不存在,则返回 NOT_FOUND 错误。如果资源存在但未设置政策,则返回空政策。 您必须对指定的资源具有 Google IAM 权限
|
GetNote | |
---|---|
获取
|
GetSpeechConfig | |
---|---|
获取
|
ListDictationStores | |
---|---|
列出给定数据集中的
|
ListDictations | |
---|---|
列出给定的
|
ListNotes | |
---|---|
列出给定
|
ListSpeechConfigs | |
---|---|
列出给定
|
Recognize | |
---|---|
执行异步语音识别:通过
|
SetIamPolicy | |
---|---|
设置资源的访问权限控制政策。替换任何现有政策。 您必须对指定的资源具有 Google IAM 权限
|
StreamingRecognize | |
---|---|
执行双向流式语音识别,允许客户端在发送音频的同时接收结果。此方法只能通过 gRPC API 使用,REST 不支持此方法。通过此方法发送的音频将添加到请求中指定的
|
TestIamPermissions | |
---|---|
返回调用者对指定资源拥有的权限。如果资源不存在,则返回一个空权限集,而非返回 NOT_FOUND 错误。 此 API 调用无需任何权限。
|
UpdateDictation | |
---|---|
更新
|
UpdateDictationStore | |
---|---|
更新指定的
|
UpdateNote | |
---|---|
更新
|
UpdateSpeechConfig | |
---|---|
更新
|
CreateDictationRequest
使用音频样本创建 Dictation
记录,并将其添加到 Dictation store
。
字段 | |
---|---|
parent |
此口录所属的口录存储区的名称。 必须对指定的资源
|
dictation |
要创建的口录。 |
return_mask |
返回掩码适用于要返回的口录资源。如需了解 |
CreateDictationStoreRequest
创建新 Dictation store
。
字段 | |
---|---|
parent |
此口录存储区所属的数据集的名称。 必须对指定的资源
|
dictation_store_id |
正在创建的口录存储区的 ID。字符串必须与以下正则表达式匹配: |
dictation_store |
此口录存储区的配置信息。 |
CreateNoteRequest
字段 | |
---|---|
parent |
此备注所属口录的名称。 必须对指定的资源
|
note |
要创建的备注。 |
return_mask |
更新掩码应用于返回的备注资源。如需了解 |
CreateSpeechConfigRequest
创建包含识别配置的 SpeechConfig
记录,并将其添加到 Dictation store
。
字段 | |
---|---|
parent |
此 speech_config 所属的口录存储区的名称。 必须对指定的资源
|
speech_config |
SpeechConfig。 |
DeleteDictationRequest
从指定的 Dictation store
中删除 Dictation
。
字段 | |
---|---|
name |
要删除的口录的资源名称。 必须对指定的资源
|
DeleteDictationStoreRequest
删除指定的 Dictation store
。
字段 | |
---|---|
name |
要删除的口录存储区的资源名称。 必须对指定的资源
|
DeleteNoteRequest
字段 | |
---|---|
name |
要删除备注的资源名称。 必须对指定的资源
|
DeleteSpeechConfigRequest
从指定的 Dictation store
中删除 SpeechConfig
配置。
字段 | |
---|---|
name |
要删除的 SpeechConfig 配置的资源名称。 必须对指定的资源
|
口录
音频口录。
字段 | |
---|---|
name |
口录的资源名称,格式为 |
audio |
当在 GetDictation 响应中返回时,包含二进制表示形式的音频内容。音频字段不包括在 CreateDictation 和 UpdateDictation 响应中。 |
create_time |
仅供输出。创建口录的时间。 |
training_consent |
指定 ALLOW 以允许使用此口录及其备注来改进语音识别。此值将替换父级 DictationStore 中的 training_consent 字段的值。如果省略此值,则使用 DictationStore 中的 training_consent 字段的值。 |
DictationStore
可以存储与口录相关的其他资源(如口录、备注和 SpeechConfigs
)的口录存储区。
字段 | |
---|---|
name |
仅供输出。口录存储区的资源名称,格式为 |
pubsub_topic |
Cloud Pub/Sub主题,用于发布有关口录和备注更改的通知。PubsubMessage.Data 将包含口录或备注资源名称。PubsubMessage.Attributes 将包含一个映射,其中包含描述触发通知的操作的字符串,例如“action”:“CreateDictation”。仅在主题为非空时发送通知。主题名称必须限定为项目。此 API 必须具有给定 Cloud Pub/Sub 主题的发布商权限。权限不足将导致发送通知的调用失败。由客户端提供。 |
training_consent |
指定 ALLOW 以允许使用此存储区中的资源来改进语音识别。您仍然可以使用 Dictation.training_consent 字段为每个口录指定排除项,该字段将覆盖包含的 DictationStore 中指定的值。如果未指定,则将其视为 DISALLOW。 |
labels |
用户提供的键值对,用于整理口录存储区。 标签键的长度必须在 1 到 63 个字符之间,所用的 UTF-8 编码上限为 128 个字节,并且必须符合以下 PCRE 正则表达式:[\p{Ll}\p{Lo}][\p{Ll}\p{Lo}\p{N}_-]{0,62} 标签值是可选的,长度必须在 1 到 63 个字符之间,所用的 UTF-8 编码上限为 128 个字节,并且必须符合以下 PCRE 正则表达式:[\p{Ll}\p{Lo}\p{N}_-]{0,63} 与给定存储区关联的标签不得超过 64 个。 |
GetDictationRequest
从指定的 Dictation store
获取 Dictation
。
字段 | |
---|---|
name |
要检索的口录的资源名称。 必须对指定的资源
|
GetDictationStoreRequest
获取 Dictation store
。
字段 | |
---|---|
name |
要获取的口录存储区的资源名称。 必须对指定的资源
|
GetNoteRequest
字段 | |
---|---|
name |
要检索的备注的资源名称。 必须对指定的资源
|
GetSpeechConfigRequest
从指定的 Dictation store
获取 SpeechConfig
记录。
字段 | |
---|---|
name |
要检索的 SpeechConfig 配置的资源名称。 必须对指定的资源
|
ListDictationStoresRequest
列出给定数据集中的 Dictation stores
。
字段 | |
---|---|
parent |
数据集名称。 必须对指定的资源
|
page_size |
对单个响应中返回的口录存储区数的限制。如果为零,则使用默认页面大小 100。 |
page_token |
从上一个 List 请求返回的 next_page_token 值(如果有)。 |
filter |
将返回的存储区限制为与过滤条件匹配的存储区。语法:https://cloud.google.com/appengine/docs/standard/python/search/query_strings 仅支持对标签进行过滤,例如 |
ListDictationStoresResponse
列出给定数据集中的 Dictation stores
。
字段 | |
---|---|
dictation_stores[] |
返回的口录存储区。口录存储区的数量不会超过请求中 page_size 的值。 |
next_page_token |
用于检索下一页结果的令牌。如果列表中没有更多结果,则为空。 |
ListDictationsRequest
列出指定的 Dictation store
中的 Dictations
。
字段 | |
---|---|
parent |
要从中检索口录的口录存储区的名称。 必须对指定的资源
|
page_size |
单个响应中返回的口录数量限制。如果为零,则使用默认页面大小 100。 |
page_token |
从上一个 List 请求返回的 next_page_token 值(如果有)。 |
filter |
将返回的口录限制为与过滤条件匹配的口录。语法:https://cloud.google.com/appengine/docs/standard/python/search/query_strings 可用于过滤的字段/函数为:use_for_speech_training |
ListDictationsResponse
列出指定的 Dictation store
中的 Dictations
。
字段 | |
---|---|
dictation_names[] |
返回的口录名称。请求中的值不会超过 page_size 的值。 |
next_page_token |
用于检索下一页结果的令牌。如果列表中没有更多结果,则为空。 |
ListNotesRequest
字段 | |
---|---|
parent |
从中检索备注的口录的名称。 必须对指定的资源
|
page_size |
单个响应中返回的备注数限制。如果为零,则使用默认页面大小 100。 |
page_token |
从上一个 List 请求返回的 next_page_token 值(如果有)。 |
filter |
将返回的备注限制为与过滤条件匹配的备注。语法:https://cloud.google.com/appengine/docs/standard/python/search/query_strings 可用于过滤的字段/函数为:- type - origin - speech_config_name - speaker_external_id - speaker_human_name |
ListNotesResponse
字段 | |
---|---|
note_names[] |
返回的备注名称。请求中的值不会超过 page_size 的值。 |
next_page_token |
用于检索下一页结果的令牌。如果列表中没有更多结果,则为空。 |
ListSpeechConfigsRequest
列出指定的 Dictation store
中的 SpeechConfigs
。
字段 | |
---|---|
parent |
要从中检索 SpeechConfigs 的口录存储区的名称。 必须对指定的资源
|
page_size |
单个响应中返回的 SpeechConfig 数限制。如果为零,则使用默认页面大小 100。 |
page_token |
从上一个 List 请求返回的 next_page_token 值(如果有)。 |
filter |
将返回的 SpeechConfig 限制为与过滤条件匹配的 SpeechConfig。语法:https://cloud.google.com/appengine/docs/standard/python/search/query_strings 可用于过滤的字段/函数为:- speaker_external_id - speaker_human_name |
ListSpeechConfigsResponse
列出指定的 Dictation store
中的 SpeechConfigs
。
字段 | |
---|---|
speech_config_names[] |
返回的 SpeechConfigs 名称。请求中的值不会超过 page_size 的值。 |
next_page_token |
用于检索下一页结果的令牌。如果列表中没有更多结果,则为空。 |
备注
音调可以表示语音识别结果,也可以将其输入为可信来源,以便进一步训练语音识别模型以及存储最终更正的转录内容。
字段 | |
---|---|
name |
备注的资源名称,格式为 |
speech_config_name |
SpeechConfig 用于生成此备注,格式为 |
type |
备注类型。 |
origin |
识别结果的来源,例如所用的特定模型。 |
speech_recognition_results[] |
与音频的连续部分(如演讲者在对话中轮播的音频部分)相对应的转录结果的连续列表。 |
create_time |
备注创建的时间。由服务器设置。 |
类型
备注类型。
枚举 | |
---|---|
TYPE_UNSPECIFIED |
无效或未指定的类型。 |
VERBATIM |
逐字备注可用作回录语音的“标准答案”。 |
CORRECTION |
对调用 Recognize 生成的备注进行更正。 |
DRAFT |
生成最终备注前仍可更新的草稿备注。 |
FINAL |
最终批准备注。 |
AUTO_RECOGNIZED |
仅供输出。通过调用 Recognize 生成的备注。AUTO_RECOGNIZED 类型的备注无法用 CreateNote 创建。AUTO_RECOGNIZED 类型的备注无法用 UpdateNote 更新。备注无法通过 UpdateNote 更新为 AUTO_RECOGNIZED 类型。 |
RecognitionAudio
包含按 RecognitionConfig
中指定的方式编码的音频数据。必须提供 content
或 uri
。同时提供两者或两者都不提供会返回 google.rpc.Code.INVALID_ARGUMENT
。请参阅音频限制。
字段 | ||
---|---|---|
联合字段 audio_source 。音频源,可以是内嵌内容,也可以是 Cloud Storage URI。audio_source 只能是下列其中一项: |
||
content |
按 |
|
uri |
指向一个文件的 URI,该文件包含 |
RecognitionConfig
向识别器提供指定如何处理请求的信息。
字段 | |
---|---|
encoding |
在所有 |
sample_rate_hertz |
在所有 |
audio_channel_count |
输入音频数据中的声道数量。仅适用于多声道音频识别。对 LINEAR16 和 FLAC 而言有效值为 |
enable_separate_recognition_per_channel |
要单独识别每个声道,需将该字段显式设置为“true”,并且要求 audio_channel_count > 1。识别结果将包含 channel_tag 字段,以指明结果属于哪个声道。如果该字段不为“true”,将仅识别第一个声道。 |
language_code |
所提供音频的语言,以 BCP-47 语言标记形式表示。示例:“en-US”。请参阅语言支持以获取当前支持的语言代码列表。 |
context_phrases[] |
包含字词和短语“提示”的字符串的列表,以便语音识别更有可能识别出它们。该字段可用于提高识别特定字词和短语的准确度,例如,在用户经常说出特定指令的情况下。该字段也可以用于向识别器的词汇表中添加更多字词。 |
model |
要为给定请求选择的模型。如果未明确指定模型,则使用默认值“default'”。 |
AudioEncoding
请求中发送的音频数据的编码。
所有编码仅支持 1 声道(单声道)音频。
为获得最佳结果,应使用无损编码(FLAC
或 LINEAR16
)捕获和传输音频源。如果使用有损编解码器来捕获或传输音频,则会降低语音识别的准确性,尤其是在存在背景噪声的情况下。有损编解码器包括 MULAW
、AMR
、AMR_WB
、OGG_OPUS
和 SPEEX_WITH_HEADER_BYTE
。
FLAC
和 WAV
音频文件格式包括描述所含音频内容的文件头。您可以请求识别包含 WAV
或 LINEAR16
编码音频的 MULAW
文件。如果您在请求中发送 FLAC
或 WAV
音频文件格式,则无需指定 AudioEncoding
;音频编码格式将根据文件头确定。如果在发送 FLAC
或 WAV
音频时指定 AudioEncoding
,则编码配置必须与音频文件头中描述的编码匹配;否则请求将返回 google.rpc.Code.INVALID_ARGUMENT
错误代码。
枚举 | |
---|---|
ENCODING_UNSPECIFIED |
未指定。 |
LINEAR16 |
未压缩的 16 位有符号小端字节序采样(线性 PCM)。 |
FLAC |
推荐的编码方式是 FLAC (免费无损音频编解码器),因为这种编码方式是无损的(因此丝毫不会影响到识别),并且所需带宽仅为 LINEAR16 的大致一半。FLAC 流编码支持 16 位和 24 位采样,但并不支持 STREAMINFO 中的所有字段。 |
MULAW |
8 位采样,使用 G.711 PCMU/mu-law 压缩 14 位音频采样。 |
AMR |
自适应多速率窄带编解码器。sample_rate_hertz 必须是 8000。 |
AMR_WB |
自适应多速率宽带编解码器。sample_rate_hertz 必须是 16000。 |
OGG_OPUS |
Ogg 容器中的 Opus 编码音频帧 (OggOpus)。sample_rate_hertz 必须是以下值之一:8000、12000、16000、24000 或 48000。 |
SPEEX_WITH_HEADER_BYTE |
尽管不推荐使用有损编码,但如果需要超低比特率编码,则 OGG_OPUS 要明显优于 Speex 编码。Cloud Speech API 支持的 Speex 编码在每个块中都有一个头字节,如在 MIME 类型 audio/x-speex-with-header-byte 中一样。它是 RFC 5574 中定义的 RTP Speex 编码的变体。流是一系列块,每个 RTP 包一个块。每个块均以包含块长度的字节开始(以字节为单位),后接一个或多个 Speex 数据帧,填充到 RFC 5574 中指定的整数个字节(八位字节)中。换句话说,每个 RTP 文件头均替换为包含块长度的单个字节。系统仅支持 Speex 宽带。sample_rate_hertz 必须是 16000。 |
RecognizeRequest
字段 | |
---|---|
name |
要转录的口录资源名称。 必须对指定的资源
|
speech_config_name |
要在识别请求中使用的 SpeechConfig 配置。语音配置可作为完整的 REST 路径提供: 必须对指定的资源
|
enable_voice_actions |
确定识别引擎是否应查找语音操作。 |
RecognizeResponse
对 Dictation
的识别方法的最终响应。此结构将包含在 google.longrunning.Operation.result.response
中,用于描述 Recognize
执行的详细结果。只有在执行完成时,它才会包含在内。
字段 | |
---|---|
note_name |
调用 Recognize 生成的 |
RecognizedAction
在识别过程中检测到的语音操作。
下表列出了可能的操作。
语音操作 | RecognizedAction |
文本选择。 例如,选择血红蛋白给患者 |
{ "action_name": "TextSelection", "confidence": 1.0, "param_results": [ { "parameter_name": "FromText", "value": "hemoglobin" }, { "parameter_name": "ToText", "value": "patient" } ] } |
移除文本选择。 例如,取消选择此内容 |
{ "action_name": "RemoveSelection", "confidence": 1.0 } |
删除上一条话语或当前句子 例如,撤消 |
{ "action_name": "Undo", "confidence": 0.8 } |
插入新行 例如,新行 |
{ "action_name": "NewLine", "confidence": 1.0 } |
插入新段落 例如,新段落 |
{ "action_name": "NewParagraph", "confidence": 1.0 } |
将光标移至上一个字词 例如,在血红蛋白前插入 |
{ "action_name": "InsertAt", "confidence": 0.5, "param_results": [ { "parameter_name": "InsertLocation", "value": "before" }, { "parameter_name": "InsertTarget", "value": "hemoglobin" } ] } |
移动光标 例如,转到句子结尾。 |
{ "action_name": "MoveCursor", "confidence": 0.6, "param_results": [ { "parameter_name": "MoveLocation", "value": "end" }, { "parameter_name": "MoveTarget", "value": "sentence" } ] } |
在光标所在的位置创建列表 例如,插入编号 1 腰背疼痛 |
{ "action_name": "CreateList", "confidence": 0.6, "param_results": [ { "parameter_name": "ListNum", "value": "1" }, { "parameter_name": "InsertText", "value": "low pb" } ] } |
字段 | |
---|---|
action_name |
检测到的操作的名称。 |
confidence |
介于 0.0 和 1.0 之间的置信度估计值。数值越大,表示此操作是指定语音操作的可能性越大。 |
params[] |
检测到的操作的参数列表。 |
RecognizedActionParameter
表示操作参数。
字段 | |
---|---|
parameter_name |
操作参数的名称,例如 |
value |
操作参数的值,例如 |
SpeechConfig
用于支持训练和适应的配置记录。实际人类讲话者可能会共享 SpeechConfig 配置,或者每个人都有单独的配置。
字段 | |
---|---|
name |
备注的资源名称,格式为 |
recognition_config |
向识别器提供指定如何处理请求的信息。 |
speaker_external_id |
外部系统中可用于选择特定配置的 ID。 |
speaker_human_name |
人名(如果提供)。 |
SpeechRecognitionResult
对应于音频的一部分的语音识别结果。
字段 | |
---|---|
transcript |
仅供输出。表示用户所说词语的转录文本。 |
confidence |
仅供输出。介于 0.0 和 1.0 之间的置信度估计值。数字越高表示单词被正确识别的估计可能性越大。此字段不能保证准确无误,也不能保证总会为用户提供。默认值 0.0 是一个标记值,表示未设置 |
words[] |
仅供输出。每个已识别字词的字词特定信息列表。 |
channel_tag |
对于多声道音频,这是与识别出的音频所属声道相对应的声道编号。对于 audio_channel_count = N,其输出值的范围可以从“1”到“N”。 |
action |
识别过程中检测到语音操作。 |
StreamingRecognitionResult
对应于当前正在处理的音频的一部分的流式语音识别结果。
字段 | |
---|---|
speech_recognition_result |
仅供输出。语音识别的增量结果。只要 |
is_final |
仅供输出。如果为 |
stability |
仅供输出。对识别器不会改变对此临时结果的猜测的可能性估计。值范围为 0.0(完全不稳定)到 1.0(完全稳定)。此字段仅适用于临时结果 ( |
StreamingRecognizeRequest
客户端为 [StreamingRecognize]
[google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] 方法发送的顶级消息。多条 StreamingRecognizeRequest
消息已发送。第一条消息必须包含 stream_setup_info
消息,且不得包含 audio_content
数据。所有后续消息都必须包含 audio_content
数据,且不得包含 stream_setup_info
消息。
字段 | ||
---|---|---|
联合字段 streaming_request 。流式传输请求,可以是流式传输设置信息或音频内容。streaming_request 只能是下列其中一项: |
||
stream_setup_info |
向识别器提供指定如何处理请求的信息。第一条 |
|
audio_content |
要识别的音频数据。连续的音频数据块在连续的 |
StreamingRecognizeResponse
StreamingRecognizeResponse
是 [StreamingRecognize] [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] 返回给客户端的唯一消息。一系列零个或零个以上 StreamingRecognizeResponse
消息将流式传输回客户端。如果没有可识别的音频,并且 single_utterance
设置为 false,则不会向客户端流式返回任何消息。
以下示例展示了处理音频时可能返回的一系列 StreamingRecognizeResponse
:
results { speech_recognition_result { transcript: "tube" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be a" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be" } stability: 0.9 } results { speech_recognition_result { transcript: " or not to be" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be or not to be" confidence: 0.92 } is_final: true }
results { speech_recognition_result { transcript: " that's" } stability: 0.01 }
results { speech_recognition_result { transcript: " that is" } stability: 0.9 } results { speech_recognition_result { transcript: " the question" } stability: 0.01 }
results { speech_recognition_result { transcript: " that is the question" confidence: 0.98 } is_final: true }
注意:
只有两条响应包含最终结果(第 4 条和第 7 条,由
is_final: true
字段表示)。将这些响应连接起来即可获得完整的转录内容:“to be or not to be that is the question”。其他响应包含临时
results
。第 3 条和第 6 条包含两个临时results
:第一部分稳定性高,不太可能改变;第二部分稳定性低,很可能会改变。上面显示的特定
stability
和confidence
值仅用于说明目的。实际值可能会有所不同。在每个响应中,只会设置以下字段之一:
error
、speech_event_type
或一个或多个(重复)results
。
字段 | |
---|---|
error |
仅供输出。与流式操作相关的错误状态(如果有)。 |
results[] |
仅供输出。该重复列表包含零个或零个以上结果,这些结果对应于当前正在处理的音频的连续部分。它包含零个或一个 |
speech_event_type |
仅供输出。表示语音事件的类型。 |
SpeechEventType
表示语音事件的类型。
枚举 | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
未指定语音事件。 |
END_OF_SINGLE_UTTERANCE |
该事件表明服务器已经检测到用户所说话语结束,并且预计不会有额外的语音。因此,服务器不会处理额外的音频(尽管后续可能会返回额外的结果)。客户端应停止发送额外的音频数据,半关闭 gRPC 连接,并等待其他结果,直至服务器关闭 gRPC 连接为止。仅当 single_utterance 设置为 true 时才发送该事件,不另做他用。 |
TrainingConsent
指定用于改进语音识别的同意类型。
枚举 | |
---|---|
TRAINING_CONSENT_UNSPECIFIED |
未指定同意。 |
ALLOW |
同意训练。 |
DISALLOW |
不同意训练。 |
UpdateDictationRequest
请求更新给定 Dictation
。
字段 | |
---|---|
dictation |
用于更新服务器上资源的口录资源。只有 update_mask 中列出的字段为必填字段或被应用。 必须对指定的资源
|
update_mask |
更新掩码适用于该资源。如需了解 |
UpdateDictationStoreRequest
更新 Dictation store
。
字段 | |
---|---|
dictation_store |
用于更新服务器上资源的口录存储区资源。只有 update_mask 中列出的字段才会被应用。 必须对指定的资源
|
update_mask |
更新掩码适用于该资源。如需了解 |
UpdateNoteRequest
请求更新给定 Note
,例如更新 SpeechConfig。
字段 | |
---|---|
note |
用于更新服务器上资源的备注资源。只有 update_mask 中列出的字段为必填字段或被应用。无法更新类型为 AUTO_RECOGNIZED 的备注。备注无法更新为 AUTO_RECOGNIZED 类型。 必须对指定的资源
|
update_mask |
更新掩码适用于该资源。如需了解 |
UpdateSpeechConfigRequest
请求更新给定 SpeechConfig
,例如更新语言。
字段 | |
---|---|
speech_config |
用于更新服务器上资源的 SpeechConfig 资源。只有 update_mask 中列出的字段为必填字段或被应用。 必须对指定的资源
|
update_mask |
更新掩码适用于该资源。如需了解 |
WordInfo
已识别字词的字词特定信息。
字段 | |
---|---|
start_time_offset |
仅供输出。相对于音频开头的时间偏移,并且对应于所说字词的开头。此字段仅在 |
end_time_offset |
仅供输出。相对于音频开头的时间偏移,并且对应于所说字词的末尾。此字段仅在 |
word |
仅供输出。对应于该组信息的字词。 |
confidence |
仅供输出。介于 0.0 和 1.0 之间的置信度估计值。数字越高表示单词被正确识别的估计可能性越大。此字段不能保证准确无误,也不能保证总会为用户提供。默认值 0.0 是一个标记值,表示未设置 |