使用双向数据流合成语音
本文档将引导您完成使用双向数据流合成音频的过程。
双向流式传输可让您同时发送文本输入和接收音频数据。这意味着,您可以在发送完整输入文本之前开始合成语音,从而缩短延迟时间并实现实时互动。语音助理和互动式游戏使用双向流式传输来打造更具动态性和响应速度更快的应用。
如需详细了解 Text-to-Speech 中的基本概念,请阅读 Text-to-Speech 基础知识。
准备工作
您必须先完成以下操作,然后才能向 Text-to-Speech API 发送请求。如需了解详情,请参阅准备工作页面。
- 在 Google Cloud 项目上启用 Text-to-Speech。
- 确保已为 Text-to-Speech 启用结算功能。
-
After installing the Google Cloud CLI, configure the gcloud CLI to use your federated identity and then initialize it by running the following command:
gcloud init
使用双向数据流合成语音
安装客户端库
Python
在安装库之前,请确保已经为 Python 开发准备好环境。
pip install --upgrade google-cloud-texttospeech
发送文本流并接收音频流
该 API 接受类型为 StreamingSynthesizeRequest
的请求流,其中包含 StreamingSynthesisInput
或 StreamingSynthesizeConfig
。
在使用 StreamingSynthesisInput
(提供文本输入)发送流 StreamingSynthesizeRequest
之前,请使用 StreamingSynthesizeConfig
发送恰好一个 StreamingSynthesizeRequest
。
流式 Text-to-Speech 仅与 Journey 语音兼容。
Python
在运行该示例之前,请确保已经为 Python 开发准备好环境。
清理
为避免产生不必要的 Google Cloud Platform 费用,请使用 Google Cloud 控制台删除您不需要的项目。
后续步骤