REST 资源：projects.locations.datasets.dictationStores.speechConfigs

资源：SpeechConfig

用于支持训练和适应的配置记录。实际人类讲话者可能会共享 SpeechConfig 配置，或者每个人都有单独的配置。

JSON 表示法
{ "name": string, "recognitionConfig": { object (`RecognitionConfig`) }, "speakerExternalId": string, "speakerHumanName": string }

字段
`name`	`string` 备注的资源名称，格式为 `projects/{project_id}/locations/{locationId}/datasets/{datasetId}/dictationStores/{dictationStoreId}/speechConfigs/{speech_config_id}`。由服务器分配。
`recognitionConfig`	`object (RecognitionConfig)` 向识别器提供指定如何处理请求的信息。
`speakerExternalId`	`string` 外部系统中可用于选择特定配置的 ID。
`speakerHumanName`	`string` 人名（如果提供）。

RecognitionConfig

向识别器提供指定如何处理请求的信息。

JSON 表示法

JSON 表示法
{ "encoding": enum (`AudioEncoding`), "sampleRateHertz": number, "audioChannelCount": number, "enableSeparateRecognitionPerChannel": boolean, "languageCode": string, "contextPhrases": [ string ], "model": string }


{
  "encoding": enum (AudioEncoding),
  "sampleRateHertz": number,
  "audioChannelCount": number,
  "enableSeparateRecognitionPerChannel": boolean,
  "languageCode": string,
  "contextPhrases": [
    string
  ],
  "model": string
}

字段
`encoding`	`enum (AudioEncoding)` 在所有 `RecognitionAudio` 消息中发送的音频数据的编码。此字段对于 `FLAC` 和 `WAV` 音频文件而言不是必需的，但对所有其他音频格式而言是必需的。如需了解详情，请参阅 `AudioEncoding`。
`sampleRateHertz`	`number` 在所有 `RecognitionAudio` 消息中发送的音频数据的采样率（单位为赫兹）。有效值包括：8000-48000。16000 是最佳选择。为获得最佳效果，请将音频源的采样率设置为 16000 Hz。如果无法实现，则请使用音频源的原生采样率（而不是重新采样）。此字段对于 `FLAC` 和 `WAV` 音频文件而言不是必需的，但对所有其他音频格式而言是必需的。如需了解详情，请参阅 `AudioEncoding`。
`audioChannelCount`	`number` 输入音频数据中的声道数量。仅适用于多声道音频识别。对 LINEAR16 和 FLAC 而言有效值为 `1` - `8`。对 OGG_OPUS 而言有效值为 1 - 254。对 MULAW、AMR、AMR_WB 和 SPEEX_WITH_HEADER_BYTE 而言有效值只有 `1`。如果值为 `0` 或省略该值，则默认为一个声道（单声道）。注意：默认情况下只识别第一个声道。要单独识别每个声道，请将 enableSeparateRecognitionPerChannel 设置为“true”。
`enableSeparateRecognitionPerChannel`	`boolean` 要单独识别每个声道，需将该字段明确设置为“true”，并且要求 audioChannelCount > 1。识别结果将包含 channelTag 字段，以指明结果属于哪个声道。如果不是，则仅识别第一个声道。
`languageCode`	`string` 所提供音频的语言，以 BCP-47 语言标记形式表示。示例：“en-US”。请参阅语言支持以获取当前支持的语言代码列表。
`contextPhrases[]`	`string` 包含字词和短语“提示”的字符串的列表，以便语音识别更有可能识别出它们。该字段可用于提高识别特定字词和短语的准确度。例如，在用户经常说出特定指令的情况下。该字段也可以用于向识别器的词汇表中添加更多字词。
`model`	`string` 要为给定请求选择的模型。如果未明确指定模型，则使用默认值“default'”。

AudioEncoding

请求中发送的音频数据的编码。

所有编码仅支持 1 声道（单声道）音频。

为获得最佳效果，请使用无损编码（如 FLAC 或LINEAR16）捕获和传输音频源。如果使用有损编解码器来捕获或传输音频，则会降低语音识别的准确性，尤其是在存在背景噪声的情况下。有损编解码器包括 MULAW、AMR、AMR_WB、OGG_OPUS 和 SPEEX_WITH_HEADER_BYTE。

FLAC 和 WAV 音频文件格式包括描述所含音频内容的文件头。您可以请求识别包含 WAV 或 LINEAR16 编码音频的 MULAW 文件。如果您在请求中发送 FLAC 或 WAV 音频文件格式，则无需指定 AudioEncoding；音频编码格式将根据文件头确定。如果在发送 FLAC 或 WAV 音频时指定 AudioEncoding，则编码配置必须与音频文件头中描述的编码匹配；否则请求将返回 google.rpc.Code.INVALID_ARGUMENT 错误代码。

枚举
`ENCODING_UNSPECIFIED`	未指定。
`LINEAR16`	未压缩的 16 位有符号小端字节序采样（线性 PCM）。
`FLAC`	推荐的编码方式是 `FLAC`（免费无损音频编解码器），因为它是无损的（因此丝毫不会影响到识别），并且所需带宽仅为 `LINEAR16` 的大致一半。`FLAC` 流编码支持 16 位和 24 位采样，但并不支持 `STREAMINFO` 中的所有字段。
`MULAW`	8 位采样，使用 G.711 PCMU/mu-law 压缩 14 位音频采样。
`AMR`	自适应多速率窄带编解码器。`sampleRateHertz` 必须是 8000。
`AMR_WB`	自适应多速率宽带编解码器。`sampleRateHertz` 必须是 16000。
`OGG_OPUS`	Ogg 容器中的 Opus 编码音频帧 (OggOpus)。`sampleRateHertz` 必须是以下值之一：8000、12000、16000、24000 或 48000。
`SPEEX_WITH_HEADER_BYTE`	尽管不推荐使用有损编码，但如果需要超低比特率编码，则 `OGG_OPUS` 要明显优于 Speex 编码。Cloud Speech API 支持的 Speex 编码在每个块中都有一个头字节，如在 MIME 类型 `audio/x-speex-with-header-byte` 中一样。它是 RFC 5574 中定义的 RTP Speex 编码的变体。流是一系列块，每个 RTP 包一个块。每个块均以包含块长度的字节开始（以字节为单位），后接一个或多个 Speex 数据帧，填充到 RFC 5574 中指定的整数个字节（八位字节）中。换句话说，每个 RTP 文件头均替换为包含块长度的单个字节。系统仅支持 Speex 宽带。`sampleRateHertz` 必须是 16000。

方法
`create`	创建新 `SpeechConfig`。
`delete`	删除 `SpeechConfig` 或若不存在则返回“NOT_FOUND”。
`get`	获取 `SpeechConfig` 配置。
`list`	列出指定 `Dictation store` 中支持过滤的所有 `SpeechConfigs`。
`patch`	更新 `SpeechConfig`。

REST 资源：projects.locations.datasets.dictationStores.speechConfigs

资源：SpeechConfig

RecognitionConfig

AudioEncoding

方法

`create`

`delete`

`get`

`list`

`patch`