REST 资源:projects.locations.datasets.dictationStores.speechConfigs

资源:SpeechConfig

用于支持训练和适应的配置记录。实际人类讲话者可能会共享 SpeechConfig 配置,或者每个人都有单独的配置。

JSON 表示法

{
  "name": string,
  "recognitionConfig": {
    object (RecognitionConfig)
  },
  "speakerExternalId": string,
  "speakerHumanName": string
}
字段
name

string

备注的资源名称,格式为 projects/{project_id}/locations/{locationId}/datasets/{datasetId}/dictationStores/{dictationStoreId}/speechConfigs/{speech_config_id}。由服务器分配。

recognitionConfig

object (RecognitionConfig)

向识别器提供指定如何处理请求的信息。

speakerExternalId

string

外部系统中可用于选择特定配置的 ID。

speakerHumanName

string

人名(如果提供)。

RecognitionConfig

向识别器提供指定如何处理请求的信息。

JSON 表示法

{
  "encoding": enum (AudioEncoding),
  "sampleRateHertz": number,
  "audioChannelCount": number,
  "enableSeparateRecognitionPerChannel": boolean,
  "languageCode": string,
  "contextPhrases": [
    string
  ],
  "model": string
}
字段
encoding

enum (AudioEncoding)

在所有 RecognitionAudio 消息中发送的音频数据的编码。此字段对于 FLACWAV 音频文件而言不是必需的,但对所有其他音频格式而言是必需的。如需了解详情,请参阅 AudioEncoding

sampleRateHertz

number

在所有 RecognitionAudio 消息中发送的音频数据的采样率(单位为赫兹)。有效值包括:8000-48000。16000 是最佳选择。为获得最佳效果,请将音频源的采样率设置为 16000 Hz。如果无法实现,则请使用音频源的原生采样率(而不是重新采样)。此字段对于 FLACWAV 音频文件而言不是必需的,但对所有其他音频格式而言是必需的。如需了解详情,请参阅 AudioEncoding

audioChannelCount

number

输入音频数据中的声道数量。仅适用于多声道音频识别。对 LINEAR16 和 FLAC 而言有效值为 1 - 8。对 OGG_OPUS 而言有效值为 1 - 254。对 MULAW、AMR、AMR_WB 和 SPEEX_WITH_HEADER_BYTE 而言有效值只有 1。如果值为 0 或省略该值,则默认为一个声道(单声道)。注意:默认情况下只识别第一个声道。要单独识别每个声道,请将 enableSeparateRecognitionPerChannel 设置为“true”。

enableSeparateRecognitionPerChannel

boolean

要单独识别每个声道,需将该字段明确设置为“true”,并且要求 audioChannelCount > 1。识别结果将包含 channelTag 字段,以指明结果属于哪个声道。如果不是,则仅识别第一个声道。

languageCode

string

所提供音频的语言,以 BCP-47 语言标记形式表示。示例:“en-US”。请参阅语言支持以获取当前支持的语言代码列表。

contextPhrases[]

string

包含字词和短语“提示”的字符串的列表,以便语音识别更有可能识别出它们。该字段可用于提高识别特定字词和短语的准确度。例如,在用户经常说出特定指令的情况下。该字段也可以用于向识别器的词汇表中添加更多字词。

model

string

要为给定请求选择的模型。如果未明确指定模型,则使用默认值“default'”。

AudioEncoding

请求中发送的音频数据的编码。

所有编码仅支持 1 声道(单声道)音频。

为获得最佳效果,请使用无损编码(如 FLACLINEAR16)捕获和传输音频源。如果使用有损编解码器来捕获或传输音频,则会降低语音识别的准确性,尤其是在存在背景噪声的情况下。有损编解码器包括 MULAWAMRAMR_WBOGG_OPUSSPEEX_WITH_HEADER_BYTE

FLACWAV 音频文件格式包括描述所含音频内容的文件头。您可以请求识别包含 WAVLINEAR16 编码音频的 MULAW 文件。如果您在请求中发送 FLACWAV 音频文件格式,则无需指定 AudioEncoding;音频编码格式将根据文件头确定。如果在发送 FLACWAV 音频时指定 AudioEncoding,则编码配置必须与音频文件头中描述的编码匹配;否则请求将返回 google.rpc.Code.INVALID_ARGUMENT 错误代码。

枚举
ENCODING_UNSPECIFIED 未指定。
LINEAR16 未压缩的 16 位有符号小端字节序采样(线性 PCM)。
FLAC 推荐的编码方式是 FLAC(免费无损音频编解码器),因为它是无损的(因此丝毫不会影响到识别),并且所需带宽仅为 LINEAR16 的大致一半。FLAC 流编码支持 16 位和 24 位采样,但并不支持 STREAMINFO 中的所有字段。
MULAW 8 位采样,使用 G.711 PCMU/mu-law 压缩 14 位音频采样。
AMR 自适应多速率窄带编解码器。sampleRateHertz 必须是 8000。
AMR_WB 自适应多速率宽带编解码器。sampleRateHertz 必须是 16000。
OGG_OPUS Ogg 容器中的 Opus 编码音频帧 (OggOpus)。sampleRateHertz 必须是以下值之一:8000、12000、16000、24000 或 48000。
SPEEX_WITH_HEADER_BYTE 尽管不推荐使用有损编码,但如果需要超低比特率编码,则 OGG_OPUS 要明显优于 Speex 编码。Cloud Speech API 支持的 Speex 编码在每个块中都有一个头字节,如在 MIME 类型 audio/x-speex-with-header-byte 中一样。它是 RFC 5574 中定义的 RTP Speex 编码的变体。流是一系列块,每个 RTP 包一个块。每个块均以包含块长度的字节开始(以字节为单位),后接一个或多个 Speex 数据帧,填充到 RFC 5574 中指定的整数个字节(八位字节)中。换句话说,每个 RTP 文件头均替换为包含块长度的单个字节。系统仅支持 Speex 宽带。sampleRateHertz 必须是 16000。

方法

create

创建新 SpeechConfig

delete

删除 SpeechConfig 或若不存在则返回“NOT_FOUND”。

get

获取 SpeechConfig 配置。

list

列出指定 Dictation store 中支持过滤的所有 SpeechConfigs

patch

更新 SpeechConfig