软件包 google.cloud.healthcare.v1alpha2.dictation

索引

DictationService

用于处理医疗口录请求的服务。口录数据与其他医疗保健模式一起存储在数据集中。每个数据集可以有零个或多个模式数据存储区,例如 dictation stores。口录语音 (Dictations) 和转录结果 (Notes) 是存储在口录存储区中的两种主要数据类型。SpeechConfigs 对用于自动语音识别的参数进行编码。

CreateDictation

rpc CreateDictation(CreateDictationRequest) returns (Dictation)

创建新的 Dictation 记录。保留音频样本。由于此服务为每个对象分配了唯一 ID,因此多次创建表示相同音频的口录对象是有效的。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

CreateDictationStore

rpc CreateDictationStore(CreateDictationStoreRequest) returns (DictationStore)

在父数据集中创建新 Dictation store。尝试创建 ID 与现有存储区相同的口录存储区将失败,并显示 ALREADY_EXISTS 错误。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

CreateNote

rpc CreateNote(CreateNoteRequest) returns (Note)

创建新 Note。备注加入口录存储区并与口录关联。备注可以部分填充;结果可以稍后通过调用 UpdateNote 来填充。多个备注可以与同一Dictation表示人类转录者执行的语音识别结果或手动转录相关联。由于此服务为每个对象分配了唯一 ID,因此创建具有相同内容的备注对象是有效的。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

CreateSpeechConfig

rpc CreateSpeechConfig(CreateSpeechConfigRequest) returns (SpeechConfig)

创建新 SpeechConfig。SpeechConfig 加入口录存储区并与备注关联。SpeechConfig 可以部分填充;结果可以稍后通过调用 UpdateSpeechConfig 来填充。由于此服务为每个对象分配了唯一 ID,因此创建具有相同内容的 SpeechConfig 对象是有效的。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

DeleteDictation

rpc DeleteDictation(DeleteDictationRequest) returns (Empty)

删除 Dictation 或若不存在则返回“NOT_FOUND”。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

DeleteDictationStore

rpc DeleteDictationStore(DeleteDictationStoreRequest) returns (Empty)

删除指定的 Dictation store 并移除其中包含的所有口录。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

DeleteNote

rpc DeleteNote(DeleteNoteRequest) returns (Empty)

删除现有 Note

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

DeleteSpeechConfig

rpc DeleteSpeechConfig(DeleteSpeechConfigRequest) returns (Empty)

删除 SpeechConfig 或若不存在则返回“NOT_FOUND”。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

GetDictation

rpc GetDictation(GetDictationRequest) returns (Dictation)

获取 Dictation

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

GetDictationStore

rpc GetDictationStore(GetDictationStoreRequest) returns (DictationStore)

获取指定的 Dictation store 或若不存在则返回 NOT_FOUND。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

GetIamPolicy

rpc GetIamPolicy(GetIamPolicyRequest) returns (Policy)

获取资源的访问权限控制政策。如果资源不存在,则返回 NOT_FOUND 错误。如果资源存在但未设置政策,则返回空政策。

您必须对指定的资源具有 Google IAM 权限 healthcare.DictationStores.getIamPolicy 才能进行授权

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

GetNote

rpc GetNote(GetNoteRequest) returns (Note)

获取 Note

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

GetSpeechConfig

rpc GetSpeechConfig(GetSpeechConfigRequest) returns (SpeechConfig)

获取 SpeechConfig 配置。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

ListDictationStores

rpc ListDictationStores(ListDictationStoresRequest) returns (ListDictationStoresResponse)

列出给定数据集中的 Dictation stores

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

ListDictations

rpc ListDictations(ListDictationsRequest) returns (ListDictationsResponse)

列出给定的 Dictation store 中的 Dictations

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

ListNotes

rpc ListNotes(ListNotesRequest) returns (ListNotesResponse)

列出给定 Dictation 中支持过滤的所有 Notes

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

ListSpeechConfigs

rpc ListSpeechConfigs(ListSpeechConfigsRequest) returns (ListSpeechConfigsResponse)

列出给定 Dictation store 中支持过滤的所有 SpeechConfigs

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

Recognize

rpc Recognize(RecognizeRequest) returns (Operation)

执行异步语音识别:通过 google.longrunning.Operations 接口接收结果。返回包含 RecognizeResponse 消息的 Operation.errorOperation.response(在这种情况下,以 RecognizeResponse 之名返回的备注将成为 Dictation 的子项)。metadata 字段类型为 OperationMetadata

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

SetIamPolicy

rpc SetIamPolicy(SetIamPolicyRequest) returns (Policy)

设置资源的访问权限控制政策。替换任何现有政策。

您必须对指定的资源具有 Google IAM 权限 healthcare.DictationStores.setIamPolicy 才能进行授权

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

StreamingRecognize

rpc StreamingRecognize(StreamingRecognizeRequest) returns (StreamingRecognizeResponse)

执行双向流式语音识别,允许客户端在发送音频的同时接收结果。此方法只能通过 gRPC API 使用,REST 不支持此方法。通过此方法发送的音频将添加到请求中指定的 Dictation 中。在此调用之前,口录不得包含任何音频。请注意,在创建口录时,不指定 CreateDictationRequest 中的 audio 字段即可创建不带音频的口录。发回给客户端的识别结果存储在 Note 中,后者是请求中指定的口录的子级。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

TestIamPermissions

rpc TestIamPermissions(TestIamPermissionsRequest) returns (TestIamPermissionsResponse)

返回调用者对指定资源拥有的权限。如果资源不存在,则返回一个空权限集,而非返回 NOT_FOUND 错误。

此 API 调用无需任何权限。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

UpdateDictation

rpc UpdateDictation(UpdateDictationRequest) returns (Dictation)

更新 Dictation

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

UpdateDictationStore

rpc UpdateDictationStore(UpdateDictationStoreRequest) returns (DictationStore)

更新指定的 Dictation store

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

UpdateNote

rpc UpdateNote(UpdateNoteRequest) returns (Note)

更新 Note

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

UpdateSpeechConfig

rpc UpdateSpeechConfig(UpdateSpeechConfigRequest) returns (SpeechConfig)

更新 SpeechConfig

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

CreateDictationRequest

使用音频样本创建 Dictation 记录,并将其添加到 Dictation store

字段
parent

string

此口录所属的口录存储区的名称。

必须对指定的资源 parent 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictations.create

dictation

Dictation

要创建的口录。

return_mask

FieldMask

返回掩码适用于要返回的口录资源。如需了解 FieldMask 定义,请参阅 https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask

CreateDictationStoreRequest

创建新 Dictation store

字段
parent

string

此口录存储区所属的数据集的名称。

必须对指定的资源 parent 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictationStores.create

dictation_store_id

string

正在创建的口录存储区的 ID。字符串必须与以下正则表达式匹配:[\p{L}\p{N}_\-\.]{1,256}

dictation_store

DictationStore

此口录存储区的配置信息。

CreateNoteRequest

创建 Note 记录并将其添加到 Dictation

字段
parent

string

此备注所属口录的名称。

必须对指定的资源 parent 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictations.update

note

Note

要创建的备注。

return_mask

FieldMask

更新掩码应用于返回的备注资源。如需了解 FieldMask 定义,请参阅 https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask

CreateSpeechConfigRequest

创建包含识别配置的 SpeechConfig 记录,并将其添加到 Dictation store

字段
parent

string

此 speech_config 所属的口录存储区的名称。

必须对指定的资源 parent 具有以下 Google IAM 权限才能进行授权:

  • healthcare.speechConfigs.create

speech_config

SpeechConfig

SpeechConfig。

DeleteDictationRequest

从指定的 Dictation store 中删除 Dictation

字段
name

string

要删除的口录的资源名称。

必须对指定的资源 name 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictations.delete

DeleteDictationStoreRequest

删除指定的 Dictation store

字段
name

string

要删除的口录存储区的资源名称。

必须对指定的资源 name 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictationStores.delete

DeleteNoteRequest

从指定的 Dictation 中删除 Note

字段
name

string

要删除备注的资源名称。

必须对指定的资源 name 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictations.update

DeleteSpeechConfigRequest

从指定的 Dictation store 中删除 SpeechConfig 配置。

字段
name

string

要删除的 SpeechConfig 配置的资源名称。

必须对指定的资源 name 具有以下 Google IAM 权限才能进行授权:

  • healthcare.speechConfigs.delete

口录

音频口录。

字段
name

string

口录的资源名称,格式为 projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/dictations/{dictation_id}。由服务器分配。

audio

RecognitionAudio

当在 GetDictation 响应中返回时,包含二进制表示形式的音频内容。音频字段不包括在 CreateDictation 和 UpdateDictation 响应中。

create_time

Timestamp

仅供输出。创建口录的时间。

DictationStore

可以存储与口录相关的其他资源(如口录、备注和 SpeechConfigs)的口录存储区。

字段
name

string

仅供输出。口录存储区的资源名称,格式为 projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}

pubsub_topic

string

Cloud Pub/Sub主题,用于发布有关口录和备注更改的通知。PubsubMessage.Data 将包含口录或备注资源名称。PubsubMessage.Attributes 将包含一个映射,其中包含描述触发通知的操作的字符串,例如“action”:“CreateDictation”。仅在主题为非空时发送通知。主题名称必须限定为项目。此 API 必须具有给定 Cloud Pub/Sub 主题的发布商权限。权限不足将导致发送通知的调用失败。由客户端提供。

labels

map<string, string>

用户提供的键值对,用于整理口录存储区。

标签键的长度必须在 1 到 63 个字符之间,所用的 UTF-8 编码上限为 128 个字节,并且必须符合以下 PCRE 正则表达式:[\p{Ll}\p{Lo}][\p{Ll}\p{Lo}\p{N}_-]{0,62}

标签值是可选的,长度必须在 1 到 63 个字符之间,所用的 UTF-8 编码上限为 128 个字节,并且必须符合以下 PCRE 正则表达式:[\p{Ll}\p{Lo}\p{N}_-]{0,63}

与给定存储区关联的标签不得超过 64 个。

GetDictationRequest

从指定的 Dictation store 获取 Dictation

字段
name

string

要检索的口录的资源名称。

必须对指定的资源 name 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictations.get

GetDictationStoreRequest

获取 Dictation store

字段
name

string

要获取的口录存储区的资源名称。

必须对指定的资源 name 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictationStores.get

GetNoteRequest

从指定的 Dictation 获取 Note

字段
name

string

要检索的备注的资源名称。

必须对指定的资源 name 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictations.get

GetSpeechConfigRequest

从指定的 Dictation store 获取 SpeechConfig 记录。

字段
name

string

要检索的 SpeechConfig 配置的资源名称。

必须对指定的资源 name 具有以下 Google IAM 权限才能进行授权:

  • healthcare.speechConfigs.get

ListDictationStoresRequest

列出给定数据集中的 Dictation stores

字段
parent

string

数据集名称。

必须对指定的资源 parent 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictationStores.list

page_size

int32

对单个响应中返回的口录存储区数的限制。如果为零,则使用默认页面大小 100。

page_token

string

从上一个 List 请求返回的 next_page_token 值(如果有)。

filter

string

将返回的存储区限制为与过滤条件匹配的存储区。语法:https://cloud.google.com/appengine/docs/standard/python/search/query_strings 仅支持对标签进行过滤,例如 labels.key=value

ListDictationStoresResponse

列出给定数据集中的 Dictation stores

字段
dictation_stores[]

DictationStore

返回的口录存储区。口录存储区的数量不会超过请求中 page_size 的值。

next_page_token

string

用于检索下一页结果的令牌。如果列表中没有更多结果,则为空。

ListDictationsRequest

列出指定的 Dictation store 中的 Dictations

字段
parent

string

要从中检索口录的口录存储区的名称。

必须对指定的资源 parent 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictations.list

page_size

int32

单个响应中返回的口录数量限制。如果为零,则使用默认页面大小 100。

page_token

string

从上一个 List 请求返回的 next_page_token 值(如果有)。

filter

string

将返回的口录限制为与过滤条件匹配的口录。语法:https://cloud.google.com/appengine/docs/standard/python/search/query_strings 可用于过滤的字段/函数为:use_for_speech_training

ListDictationsResponse

列出指定的 Dictation store 中的 Dictations

字段
dictation_names[]

string

返回的口录名称。请求中的值不会超过 page_size 的值。

next_page_token

string

用于检索下一页结果的令牌。如果列表中没有更多结果,则为空。

ListNotesRequest

列出指定的 Dictation 中的 Notes

字段
parent

string

从中检索备注的口录的名称。

必须对指定的资源 parent 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictations.get

page_size

int32

单个响应中返回的备注数限制。如果为零,则使用默认页面大小 100。

page_token

string

从上一个 List 请求返回的 next_page_token 值(如果有)。

filter

string

将返回的备注限制为与过滤条件匹配的备注。语法:https://cloud.google.com/appengine/docs/standard/python/search/query_strings 可用于过滤的字段/函数为:- type - origin - speech_config_name - speaker_external_id - speaker_human_name

ListNotesResponse

列出指定的 Dictation 中的 Notes

字段
note_names[]

string

返回的备注名称。请求中的值不会超过 page_size 的值。

next_page_token

string

用于检索下一页结果的令牌。如果列表中没有更多结果,则为空。

ListSpeechConfigsRequest

列出指定的 Dictation store 中的 SpeechConfigs

字段
parent

string

要从中检索 SpeechConfigs 的口录存储区的名称。

必须对指定的资源 parent 具有以下 Google IAM 权限才能进行授权:

  • healthcare.speechConfigs.list

page_size

int32

单个响应中返回的 SpeechConfig 数限制。如果为零,则使用默认页面大小 100。

page_token

string

从上一个 List 请求返回的 next_page_token 值(如果有)。

filter

string

将返回的 SpeechConfig 限制为与过滤条件匹配的 SpeechConfig。语法:https://cloud.google.com/appengine/docs/standard/python/search/query_strings 可用于过滤的字段/函数为:- speaker_external_id - speaker_human_name

ListSpeechConfigsResponse

列出指定的 Dictation store 中的 SpeechConfigs

字段
speech_config_names[]

string

返回的 SpeechConfigs 名称。请求中的值不会超过 page_size 的值。

next_page_token

string

用于检索下一页结果的令牌。如果列表中没有更多结果,则为空。

备注

音调可以表示语音识别结果,也可以将其输入为可信来源,以便进一步训练语音识别模型以及存储最终更正的转录内容。

字段
name

string

备注的资源名称,格式为 projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/dictations/{dictation_id}/notes/{note_id}。由服务器分配。

speech_config_name

string

SpeechConfig 用于生成此备注,格式为 projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/speechConfigs/{speech_config_id}

type

Type

备注类型。

origin

string

识别结果的来源,例如所用的特定模型。

speech_recognition_results[]

SpeechRecognitionResult

与音频的连续部分(如演讲者在对话中轮播的音频部分)相对应的转录结果的连续列表。

create_time

Timestamp

备注创建的时间。由服务器设置。

类型

备注类型。

枚举
TYPE_UNSPECIFIED 无效或未指定的类型。
VERBATIM 逐字备注可用作回录语音的“标准答案”。
CORRECTION 对调用 Recognize 生成的备注进行更正。
DRAFT 生成最终备注前仍可更新的草稿备注。
FINAL 最终批准备注。
AUTO_RECOGNIZED 仅供输出。通过调用 Recognize 生成的备注。AUTO_RECOGNIZED 类型的备注无法用 CreateNote 创建。AUTO_RECOGNIZED 类型的备注无法用 UpdateNote 更新。备注无法通过 UpdateNote 更新为 AUTO_RECOGNIZED 类型。

RecognitionAudio

包含按 RecognitionConfig 中指定的方式编码的音频数据。必须提供 contenturi。同时提供两者或两者都不提供会返回 google.rpc.Code.INVALID_ARGUMENT。请参阅音频限制

字段
联合字段 audio_source。音频源,可以是内嵌内容,也可以是 Cloud Storage URI。audio_source 只能是下列其中一项:
content

bytes

RecognitionConfig 中所指定的方式编码的音频数据字节。注意:与所有字节字段一样,协议缓冲区使用纯二进制表示法,而 JSON 表示法使用 base64。

uri

string

指向一个文件的 URI,该文件包含 RecognitionConfig 中指定的音频数据字节。目前,仅支持 Cloud Storage URI,且必须使用以下格式指定:gs://bucket_name/object_name(其他 URI 格式返回 google.rpc.Code.INVALID_ARGUMENT)。如需了解详情,请参阅请求 URI

RecognitionConfig

向识别器提供指定如何处理请求的信息。

字段
encoding

AudioEncoding

在所有 RecognitionAudio 消息中发送的音频数据的编码。此字段对于 FLACWAV 音频文件而言不是必需的,但对所有其他音频格式而言是必需的。如需了解详情,请参阅 AudioEncoding

sample_rate_hertz

int32

在所有 RecognitionAudio 消息中发送的音频数据的采样率(单位为赫兹)。有效值包括:8000-48000。16000 是最佳选择。为获得最佳效果,请将音频源的采样率设置为 16000 Hz。如果无法实现,则请使用音频源的原生采样率(而不是重新采样)。此字段对于 FLACWAV 音频文件而言不是必需的,但对所有其他音频格式而言是必需的。如需了解详情,请参阅 AudioEncoding

audio_channel_count

int32

输入音频数据中的声道数量。仅适用于多声道音频识别。对 LINEAR16 和 FLAC 而言有效值为 1 - 8。对 OGG_OPUS 而言有效值为 1 - 254。对 MULAW、AMR、AMR_WB 和 SPEEX_WITH_HEADER_BYTE 而言有效值只有 1。如果值为 0 或省略该值,则默认为一个声道(单声道)。注意:默认情况下只识别第一个声道。要单独识别每个声道,请将 enable_separate_recognition_per_channel 设置为“true”。

enable_separate_recognition_per_channel

bool

要单独识别每个声道,需将该字段显式设置为“true”,并且要求 audio_channel_count > 1。识别结果将包含 channel_tag 字段,以指明结果属于哪个声道。如果该字段不为“true”,将仅识别第一个声道。

language_code

string

所提供音频的语言,以 BCP-47 语言标记形式表示。示例:“en-US”。请参阅语言支持以获取当前支持的语言代码列表。

context_phrases[]

string

包含字词和短语“提示”的字符串的列表,以便语音识别更有可能识别出它们。该字段可用于提高识别特定字词和短语的准确度,例如,在用户经常说出特定指令的情况下。该字段也可以用于向识别器的词汇表中添加更多字词。

model

string

要为给定请求选择的模型。如果未明确指定模型,则使用默认值“default'”。

AudioEncoding

请求中发送的音频数据的编码。

所有编码仅支持 1 声道(单声道)音频。

为获得最佳结果,应使用无损编码(FLACLINEAR16)捕获和传输音频源。如果使用有损编解码器来捕获或传输音频,则会降低语音识别的准确性,尤其是在存在背景噪声的情况下。有损编解码器包括 MULAWAMRAMR_WBOGG_OPUSSPEEX_WITH_HEADER_BYTE

FLACWAV 音频文件格式包括描述所含音频内容的文件头。您可以请求识别包含 WAVLINEAR16 编码音频的 MULAW 文件。如果您在请求中发送 FLACWAV 音频文件格式,则无需指定 AudioEncoding;音频编码格式将根据文件头确定。如果在发送 FLACWAV 音频时指定 AudioEncoding,则编码配置必须与音频文件头中描述的编码匹配;否则请求将返回 google.rpc.Code.INVALID_ARGUMENT 错误代码。

枚举
ENCODING_UNSPECIFIED 未指定。
LINEAR16 未压缩的 16 位有符号小端字节序采样(线性 PCM)。
FLAC 推荐的编码方式是 FLAC(免费无损音频编解码器),因为这种编码方式是无损的(因此丝毫不会影响到识别),并且所需带宽仅为 LINEAR16 的大致一半。FLAC 流编码支持 16 位和 24 位采样,但并不支持 STREAMINFO 中的所有字段。
MULAW 8 位采样,使用 G.711 PCMU/mu-law 压缩 14 位音频采样。
AMR 自适应多速率窄带编解码器。sample_rate_hertz 必须是 8000。
AMR_WB 自适应多速率宽带编解码器。sample_rate_hertz 必须是 16000。
OGG_OPUS Ogg 容器中的 Opus 编码音频帧 (OggOpus)。sample_rate_hertz 必须是以下值之一:8000、12000、16000、24000 或 48000。
SPEEX_WITH_HEADER_BYTE 尽管不推荐使用有损编码,但如果需要超低比特率编码,则 OGG_OPUS 要明显优于 Speex 编码。Cloud Speech API 支持的 Speex 编码在每个块中都有一个头字节,如在 MIME 类型 audio/x-speex-with-header-byte 中一样。它是 RFC 5574 中定义的 RTP Speex 编码的变体。流是一系列块,每个 RTP 包一个块。每个块均以包含块长度的字节开始(以字节为单位),后接一个或多个 Speex 数据帧,填充到 RFC 5574 中指定的整数个字节(八位字节)中。换句话说,每个 RTP 文件头均替换为包含块长度的单个字节。系统仅支持 Speex 宽带。sample_rate_hertz 必须是 16000。

RecognizeRequest

向语音识别引擎发送 Dictation。创建 Note 记录并将其添加到 Dictation

字段
name

string

要转录的口录资源名称。

必须对指定的资源 name 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictations.recognize

speech_config_name

string

要在识别请求中使用的 SpeechConfig 配置。语音配置可作为完整的 REST 路径提供:projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/speechConfigs/{speech_config_id}

必须对指定的资源 speechConfigName 具有以下 Google IAM 权限才能进行授权:

  • healthcare.speechConfigs.get

enable_voice_actions

bool

确定识别引擎是否应查找语音操作。

RecognizeResponse

Dictation 的识别方法的最终响应。此结构将包含在 google.longrunning.Operation.result.response 中,用于描述 Recognize 执行的详细结果。只有在执行完成时,它才会包含在内。

字段
note_name

string

调用 Recognize 生成的 Note 的资源名称,格式为 projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/dictations/{dictation_id}/notes/{note_id}

RecognizedAction

在识别过程中检测到的语音操作。

下表列出了可能的操作。

语音操作RecognizedAction

文本选择。

例如,选择血红蛋白给患者

{ "action_name": "TextSelection",
  "confidence": 1.0,
  "param_results": [
     { "parameter_name": "FromText",
       "value": "hemoglobin" },
     { "parameter_name": "ToText",
       "value": "patient" }
  ]
}

移除文本选择。

例如,取消选择此内容


{ "action_name": "RemoveSelection",
  "confidence": 1.0
}

删除上一条话语或当前句子

例如,撤消


{ "action_name": "Undo",
  "confidence": 0.8
}

插入新行

例如,新行


{ "action_name": "NewLine",
  "confidence": 1.0
}

插入新段落

例如,新段落


{ "action_name": "NewParagraph",
  "confidence": 1.0
}

将光标移至上一个字词

例如,在血红蛋白前插入


{ "action_name": "InsertAt",
  "confidence": 0.5,
  "param_results": [
     { "parameter_name": "InsertLocation",
       "value": "before" },
     { "parameter_name": "InsertTarget",
       "value": "hemoglobin" }
  ]
}

移动光标

例如,转到句子结尾。


{ "action_name": "MoveCursor",
  "confidence": 0.6,
  "param_results": [
     { "parameter_name": "MoveLocation",
       "value": "end" },
     { "parameter_name": "MoveTarget",
       "value": "sentence" }
  ]
}

在光标所在的位置创建列表

例如,插入编号 1 腰背疼痛


{ "action_name": "CreateList",
  "confidence": 0.6,
  "param_results": [
     { "parameter_name": "ListNum",
       "value": "1" },
     { "parameter_name": "InsertText",
       "value": "low pb" }
  ]
}

字段
action_name

string

检测到的操作的名称。

confidence

float

介于 0.0 和 1.0 之间的置信度估计值。数值越大,表示此操作是指定语音操作的可能性越大。

params[]

RecognizedActionParameter

检测到的操作的参数列表。

RecognizedActionParameter

表示操作参数。

字段
parameter_name

string

操作参数的名称,例如 FromText

value

string

操作参数的值,例如 Foo

SpeechConfig

用于支持训练和适应的配置记录。实际人类讲话者可能会共享 SpeechConfig 配置,或者每个人都有单独的配置。

字段
name

string

备注的资源名称,格式为 projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/speechConfigs/{speech_config_id}。由服务器分配。

recognition_config

RecognitionConfig

向识别器提供指定如何处理请求的信息。

speaker_external_id

string

外部系统中可用于选择特定配置的 ID。

speaker_human_name

string

人名(如果提供)。

SpeechRecognitionResult

对应于音频的一部分的语音识别结果。

字段
transcript

string

仅供输出。表示用户所说词语的转录文本。

confidence

float

仅供输出。介于 0.0 和 1.0 之间的置信度估计值。数字越高表示单词被正确识别的估计可能性越大。此字段不能保证准确无误,也不能保证总会为用户提供。默认值 0.0 是一个标记值,表示未设置 confidence

words[]

WordInfo

仅供输出。每个已识别字词的字词特定信息列表。

channel_tag

int32

对于多声道音频,这是与识别出的音频所属声道相对应的声道编号。对于 audio_channel_count = N,其输出值的范围可以从“1”到“N”。

action

RecognizedAction

识别过程中检测到语音操作。

StreamingRecognitionResult

对应于当前正在处理的音频的一部分的流式语音识别结果。

字段
speech_recognition_result

SpeechRecognitionResult

仅供输出。语音识别的增量结果。只要 is_final 返回为 false,结果仍然可以更改。结果完全稳定后,系统会将结果附加到存储的 note 资源,并将 is_final 设置为 true

is_final

bool

仅供输出。如果为 false,则此 StreamingRecognitionResult 表示可能会更改的临时结果。如果为 true,则这将是语音服务最后一次返回此特定 StreamingRecognitionResult。识别器将不会再返回此部分转录内容和相应音频的任何进一步假设。

stability

float

仅供输出。对识别器不会改变对此临时结果的猜测的可能性估计。值范围为 0.0(完全不稳定)到 1.0(完全稳定)。此字段仅适用于临时结果 (is_final=false)。默认值 0.0 是一个标记值,表示未设置 stability

StreamingRecognizeRequest

客户端为 [StreamingRecognize] [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] 方法发送的顶级消息。多条 StreamingRecognizeRequest 消息已发送。第一条消息必须包含 stream_setup_info 消息,且不得包含 audio_content 数据。所有后续消息都必须包含 audio_content 数据,且不得包含 stream_setup_info 消息。

字段
联合字段 streaming_request。流式传输请求,可以是流式传输设置信息或音频内容。streaming_request 只能是下列其中一项:
stream_setup_info

RecognizeRequest

向识别器提供指定如何处理请求的信息。第一条 StreamingRecognizeRequest 消息必须包含 stream_setup_info 消息。

audio_content

bytes

要识别的音频数据。连续的音频数据块在连续的 StreamingRecognizeRequest 消息中发送。第一个 StreamingRecognizeRequest 消息不得包含 audio_content 数据,所有后续 StreamingRecognizeRequest 消息必须包含 audio_content 数据。必须按照 RecognizeRequest 中所述对音频字节进行编码。注意:与所有字节字段一样,协议缓冲区使用纯二进制表示法(而不是 base64)。请参阅音频限制

StreamingRecognizeResponse

StreamingRecognizeResponse是 [StreamingRecognize] [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] 返回给客户端的唯一消息。一系列零个或零个以上 StreamingRecognizeResponse 消息将流式传输回客户端。如果没有可识别的音频,并且 single_utterance 设置为 false,则不会向客户端流式返回任何消息。

以下示例展示了处理音频时可能返回的一系列 StreamingRecognizeResponse

  1. results { speech_recognition_result { transcript: "tube" } stability: 0.01 }

  2. results { speech_recognition_result { transcript: "to be a" } stability: 0.01 }

  3. results { speech_recognition_result { transcript: "to be" } stability: 0.9 } results { speech_recognition_result { transcript: " or not to be" } stability: 0.01 }

  4. results { speech_recognition_result { transcript: "to be or not to be" confidence: 0.92 } is_final: true }

  5. results { speech_recognition_result { transcript: " that's" } stability: 0.01 }

  6. results { speech_recognition_result { transcript: " that is" } stability: 0.9 } results { speech_recognition_result { transcript: " the question" } stability: 0.01 }

  7. results { speech_recognition_result { transcript: " that is the question" confidence: 0.98 } is_final: true }

注意:

  • 只有两条响应包含最终结果(第 4 条和第 7 条,由 is_final: true 字段表示)。将这些响应连接起来即可获得完整的转录内容:“to be or not to be that is the question”。

  • 其他响应包含临时 results。第 3 条和第 6 条包含两个临时 results:第一部分稳定性高,不太可能改变;第二部分稳定性低,很可能会改变。

  • 上面显示的特定 stabilityconfidence 值仅用于说明目的。实际值可能会有所不同。

  • 在每个响应中,只会设置以下字段之一:errorspeech_event_type 或一个或多个(重复)results

字段
error

Status

仅供输出。与流式操作相关的错误状态(如果有)。

results[]

StreamingRecognitionResult

仅供输出。该重复列表包含零个或零个以上结果,这些结果对应于当前正在处理的音频的连续部分。它包含零个或一个 is_final=true 结果(新结算的部分),后跟零个或多个 is_final=false 个结果(临时结果)。

speech_event_type

SpeechEventType

仅供输出。表示语音事件的类型。

SpeechEventType

表示语音事件的类型。

枚举
SPEECH_EVENT_TYPE_UNSPECIFIED 未指定语音事件。
END_OF_SINGLE_UTTERANCE 该事件表明服务器已经检测到用户所说话语结束,并且预计不会有额外的语音。因此,服务器不会处理额外的音频(尽管后续可能会返回额外的结果)。客户端应停止发送额外的音频数据,半关闭 gRPC 连接,并等待其他结果,直至服务器关闭 gRPC 连接为止。仅当 single_utterance 设置为 true 时才发送该事件,不另做他用。

TrainingConsent

指定用于改进语音识别的同意类型。

枚举
ALLOW 同意训练。
DISALLOW 不同意训练。

UpdateDictationRequest

请求更新给定 Dictation

字段
dictation

Dictation

用于更新服务器上资源的口录资源。只有 update_mask 中列出的字段为必填字段或被应用。

必须对指定的资源 dictation 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictations.update

update_mask

FieldMask

更新掩码适用于该资源。如需了解 FieldMask 定义,请参阅 https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask

UpdateDictationStoreRequest

更新 Dictation store

字段
dictation_store

DictationStore

用于更新服务器上资源的口录存储区资源。只有 update_mask 中列出的字段才会被应用。

必须对指定的资源 dictationStore 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictationStores.update

update_mask

FieldMask

更新掩码适用于该资源。如需了解 FieldMask 定义,请参阅 https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask

UpdateNoteRequest

请求更新给定 Note,例如更新 SpeechConfig。

字段
note

Note

用于更新服务器上资源的备注资源。只有 update_mask 中列出的字段为必填字段或被应用。无法更新类型为 AUTO_RECOGNIZED 的备注。备注无法更新为 AUTO_RECOGNIZED 类型。

必须对指定的资源 note 具有以下 Google IAM 权限才能进行授权:

  • healthcare.dictations.update

update_mask

FieldMask

更新掩码适用于该资源。如需了解 FieldMask 定义,请参阅 https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask

UpdateSpeechConfigRequest

请求更新给定 SpeechConfig,例如更新语言。

字段
speech_config

SpeechConfig

用于更新服务器上资源的 SpeechConfig 资源。只有 update_mask 中列出的字段为必填字段或被应用。

必须对指定的资源 speechConfig 具有以下 Google IAM 权限才能进行授权:

  • healthcare.speechConfigs.update

update_mask

FieldMask

更新掩码适用于该资源。如需了解 FieldMask 定义,请参阅 https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask

WordInfo

已识别字词的字词特定信息。

字段
start_time_offset

Duration

仅供输出。相对于音频开头的时间偏移,并且对应于所说字词的开头。此字段仅在 enable_word_time_offsets=true 时设置,且仅适用于首选假设。这是一项实验性功能,时间偏移的准确性可能会有所不同。

end_time_offset

Duration

仅供输出。相对于音频开头的时间偏移,并且对应于所说字词的末尾。此字段仅在 enable_word_time_offsets=true 时设置,且仅适用于首选假设。这是一项实验性功能,时间偏移的准确性可能会有所不同。

word

string

仅供输出。对应于该组信息的字词。

confidence

float

仅供输出。介于 0.0 和 1.0 之间的置信度估计值。数字越高表示单词被正确识别的估计可能性越大。此字段不能保证准确无误,也不能保证总会为用户提供。默认值 0.0 是一个标记值,表示未设置 confidence