索引
SpeechTranslationService
(接口)StreamingTranslateSpeechConfig
(消息)StreamingTranslateSpeechRequest
(消息)StreamingTranslateSpeechResponse
(消息)StreamingTranslateSpeechResponse.SpeechEventType
(枚举)StreamingTranslateSpeechResult
(消息)StreamingTranslateSpeechResult.TextTranslationResult
(消息)TranslateSpeechConfig
(消息)
SpeechTranslationService
提供媒体类型的翻译。
StreamingTranslateSpeech |
---|
执行双向流式语音翻译:在发送音频时接收结果。此方法只能通过 gRPC API 使用,REST 不支持此方法。
|
StreamingTranslateSpeechConfig
用于流式翻译的配置。
字段 | |
---|---|
audio_config |
必需。这是用于以下所有音频内容的通用配置。 |
single_utterance |
可选。如果为 如果为 |
stability |
可选。对媒体翻译文本的稳定性控制。请注意,您需要权衡稳定性和速度。值应为“LOW”“MEDIUM”“HIGH”,默认空字符串将被视为“LOW”。(1)“LOW”:在低模式下,翻译服务将在获得识别响应后立即开始翻译。速度会更快。(2)“MEDIUM”:在中模式下,翻译服务会检查识别响应是否足够稳定,并且仅翻译以后不太可能更改的识别响应。(3)“HIGH”:在高模式下,翻译服务将等待更稳定的识别响应,然后开始执行翻译。此外,以下识别响应无法修改之前的识别响应。因此,在某种情况下,可能会影响质量。“HIGH”稳定性将更频繁地生成“最终”响应。 |
StreamingTranslateSpeechRequest
客户端为 StreamingTranslateSpeech
方法发送的顶级消息。此时会发送多条 StreamingTranslateSpeechRequest
消息。第一条消息必须包含 streaming_config
消息,且不得包含 audio_content
数据。所有后续消息都必须包含 audio_content
数据,且不得包含 streaming_config
消息。
字段 | |
---|---|
联合字段 streaming_request 。流式传输请求,可以是流式传输配置或内容。streaming_request 只能是下列其中一项: |
|
streaming_config |
向识别器提供指定如何处理请求的信息。 第一条 |
audio_content |
要翻译的音频数据。连续的音频数据块在连续的 |
StreamingTranslateSpeechResponse
流式语音翻译响应,与当前正在处理的一部分音频相对应。
字段 | |
---|---|
error |
仅供输出。如果设置了此字段,则返回 |
result |
仅供输出。当前正在处理的翻译结果(is_final 可以是 true,也可以是 false)。 |
speech_event_type |
仅供输出。表示语音事件的类型。 |
SpeechEventType
表示语音事件的类型。
枚举 | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
未指定语音事件。 |
END_OF_SINGLE_UTTERANCE |
该事件表明服务器已经检测到用户所说话语结束,并且预计不会有额外的语音。因此,服务器不会处理额外的音频(尽管后续可能会返回额外的结果)。当客户端收到“END_OF_SINGLE_UTTERANCE”事件时,客户端应停止发送请求。但客户端应继续接收剩余响应,直到流终止为止。要以流式方式构造完整的句子,则应采用替换(如果前一响应的“is_final”为 false)或附加(如果前一响应的“is_final”为 true)的方式处理。仅当 single_utterance 设置为 true 时才发送此事件,否则不使用此事件。 |
StreamingTranslateSpeechResult
对应于当前正在处理的音频的一部分的流式语音翻译结果。
字段 | |
---|---|
recognition_result |
仅限输出。仅调试识别结果为原始语言。此字段仅用于调试,如果不可用,则设置为空字符串。此为实现细节,不向后兼容。 |
text_translation_result |
文本翻译结果。 |
TextTranslationResult
文本翻译结果。
字段 | |
---|---|
translation |
仅供输出。翻译后的句子。 |
is_final |
仅供输出。如果为 |
TranslateSpeechConfig
向语音翻译提供指定如何处理请求的信息。
字段 | |
---|---|
audio_encoding |
必需。对音频数据进行编码。支持的格式:
未压缩的 16 位有符号小端字节序采样(线性 PCM)。
推荐的编码方式是
8 位采样,使用 G.711 PCMU/mu-law 压缩 14 位音频采样。
自适应多速率窄带编解码器。
自适应多速率宽带编解码器。
Ogg 容器中的 Opus 编码音频帧。
MP3 音频。支持所有标准 MP3 比特率(范围为 32-320 kbps)。使用此编码时, |
source_language_code |
必需。输入音频的源语言代码 (BCP-47)。 |
target_language_code |
必需。输出的目标语言代码 (BCP-47)。 |
sample_rate_hertz |
可选。此音频数据的采样率(以赫兹为单位)。有效值的范围为:8000-48000。最理想的选择是 16000。为获得最佳效果,请将音频源的采样率设置为 16000 Hz。如果无法实现,则请使用音频源的原生采样率(而不是重新采样)。 |
model |
可选。 |