资源:SpeechConfig
用于支持训练和适应的配置记录。实际人类讲话者可能会共享 SpeechConfig 配置,或者每个人都有单独的配置。
JSON 表示法 | |
---|---|
{
"name": string,
"recognitionConfig": {
object ( |
字段 | |
---|---|
name |
备注的资源名称,格式为 |
recognitionConfig |
向识别器提供指定如何处理请求的信息。 |
speakerExternalId |
外部系统中可用于选择特定配置的 ID。 |
speakerHumanName |
人名(如果提供)。 |
RecognitionConfig
向识别器提供指定如何处理请求的信息。
JSON 表示法 | |
---|---|
{
"encoding": enum ( |
字段 | |
---|---|
encoding |
在所有 |
sampleRateHertz |
在所有 |
audioChannelCount |
输入音频数据中的声道数量。仅适用于多声道音频识别。对 LINEAR16 和 FLAC 而言有效值为 |
enableSeparateRecognitionPerChannel |
要单独识别每个声道,需将该字段明确设置为“true”,并且要求 audioChannelCount > 1。识别结果将包含 channelTag 字段,以指明结果属于哪个声道。如果不是,则仅识别第一个声道。 |
languageCode |
所提供音频的语言,以 BCP-47 语言标记形式表示。示例:“en-US”。请参阅语言支持以获取当前支持的语言代码列表。 |
contextPhrases[] |
包含字词和短语“提示”的字符串的列表,以便语音识别更有可能识别出它们。该字段可用于提高识别特定字词和短语的准确度。例如,在用户经常说出特定指令的情况下。该字段也可以用于向识别器的词汇表中添加更多字词。 |
model |
要为给定请求选择的模型。如果未明确指定模型,则使用默认值“default'”。 |
AudioEncoding
请求中发送的音频数据的编码。
所有编码仅支持 1 声道(单声道)音频。
为获得最佳效果,请使用无损编码(如 FLAC
或LINEAR16
)捕获和传输音频源。如果使用有损编解码器来捕获或传输音频,则会降低语音识别的准确性,尤其是在存在背景噪声的情况下。有损编解码器包括 MULAW
、AMR
、AMR_WB
、OGG_OPUS
和 SPEEX_WITH_HEADER_BYTE
。
FLAC
和 WAV
音频文件格式包括描述所含音频内容的文件头。您可以请求识别包含 WAV
或 LINEAR16
编码音频的 MULAW
文件。如果您在请求中发送 FLAC
或 WAV
音频文件格式,则无需指定 AudioEncoding
;音频编码格式将根据文件头确定。如果在发送 FLAC
或 WAV
音频时指定 AudioEncoding
,则编码配置必须与音频文件头中描述的编码匹配;否则请求将返回 google.rpc.Code.INVALID_ARGUMENT
错误代码。
枚举 | |
---|---|
ENCODING_UNSPECIFIED |
未指定。 |
LINEAR16 |
未压缩的 16 位有符号小端字节序采样(线性 PCM)。 |
FLAC |
推荐的编码方式是 FLAC (免费无损音频编解码器),因为它是无损的(因此丝毫不会影响到识别),并且所需带宽仅为 LINEAR16 的大致一半。FLAC 流编码支持 16 位和 24 位采样,但并不支持 STREAMINFO 中的所有字段。 |
MULAW |
8 位采样,使用 G.711 PCMU/mu-law 压缩 14 位音频采样。 |
AMR |
自适应多速率窄带编解码器。sampleRateHertz 必须是 8000。 |
AMR_WB |
自适应多速率宽带编解码器。sampleRateHertz 必须是 16000。 |
OGG_OPUS |
Ogg 容器中的 Opus 编码音频帧 (OggOpus)。sampleRateHertz 必须是以下值之一:8000、12000、16000、24000 或 48000。 |
SPEEX_WITH_HEADER_BYTE |
尽管不推荐使用有损编码,但如果需要超低比特率编码,则 OGG_OPUS 要明显优于 Speex 编码。Cloud Speech API 支持的 Speex 编码在每个块中都有一个头字节,如在 MIME 类型 audio/x-speex-with-header-byte 中一样。它是 RFC 5574 中定义的 RTP Speex 编码的变体。流是一系列块,每个 RTP 包一个块。每个块均以包含块长度的字节开始(以字节为单位),后接一个或多个 Speex 数据帧,填充到 RFC 5574 中指定的整数个字节(八位字节)中。换句话说,每个 RTP 文件头均替换为包含块长度的单个字节。系统仅支持 Speex 宽带。sampleRateHertz 必须是 16000。 |
方法 |
|
---|---|
|
创建新 SpeechConfig 。 |
|
删除 SpeechConfig 或若不存在则返回“NOT_FOUND”。 |
|
获取 SpeechConfig 配置。 |
|
列出指定 Dictation store 中支持过滤的所有 SpeechConfigs 。 |
|
更新 SpeechConfig 。 |