语音类型

Text-to-Speech 可生成宛如真人发声的自然语音的音频,从而生成听起来像真人说话的语音。首先,在发送合成请求时指定语音。

Text-to-Speech 提供各种语音,可根据语言、性别和口音进行选择。有些语言有多个选项。如需查看完整列表,请参阅支持的语音页面。如需选择语音,请在 API 请求中使用 VoiceSelectionParams 字段。如需了解如何发出 synthesize 请求,请参阅快速入门

概览

语音类型 适用于 发布阶段 可控性 流式
Chirp HD 语音 对话代理
预览 -
Studio 两位讲话人 群组 媒体 - 讨论和访谈

实验性 - -
一位讲话人 个人 媒体 - 旁白
GA SSML -
Neural2 通用
GA SSML -
Standard 经济实惠
GA SSML -

价格详情

Chirp HD 语音

Chirp HD 语音由 AudioLM 引擎提供技术支持。借助 Chirp HD 语音,您可以为对话式应用创建更具吸引力和同理心的语音。通过文本流式传输,Chirp HD 语音可实现低延迟的实时通信,并支持受支持的语音列表中列出的语言。

聊天体验


语音:en-US-Chirp-HD-F

其他示例

虚拟助理


语音:en-US-Chirp-HD-D

客户服务聊天机器人


语音:en-US-Chirp-HD-F

交互式教育应用


语音:en-US-Chirp-HD-O

销售和推介


语音:en-US-Chirp-HD-D

故事时间


语音:en-US-Chirp-HD-F

Studio 多讲话人语音

使用新的多讲话人演播室语音创建讨论和访谈,这些语音基于 Chirp HD 语音背后的相同技术。


Studio 语音

Studio 语音是专为新闻阅读和广播内容设计的。


示例 1:朗读《了不起的盖茨比》(Great Gatsby) 的 en-US-Studio-O 语音。

Neural2 语音

Text-to-Speech API 提供了一个名为 Neural2 的语音层级。Neural2 语音基于用于创建自定义语音的相同技术。Neural2 使任何人都可以无需训练自己的自定义语音便可使用自定义语音技术。在全球和单区域端点中提供。


示例 1:Neural2 语音

标准语音

Text-to-Speech 提供的语音在制作方式和用于创建语音机器模型的合成语音技术方面也有所不同。“参数式文字转语音”是一种场景语音技术,通常通过称为声码器 的信号处理算法传递输出来生成音频数据。Text-to-Speech 中提供的许多标准语音都使用了这种技术的变体。