本页面介绍了如何从命令行使用 gcloud
工具向 Speech-to-Text 发送语音识别请求。
Speech-to-Text 能够将 Google 语音识别技术轻松集成到开发者应用中。您可以向 Speech-to-Text API 发送音频数据,然后该 API 会返回该音频文件的文字转录。如需详细了解该服务,请参阅 Speech-to-Text 基础知识。
准备工作
- 登录您的 Google Cloud 帐号。如果您是 Google Cloud 新手,请创建一个帐号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
设置 Cloud Console 项目。
点击即可执行以下操作:
- 创建或选择项目。
- 为该项目启用 Speech-to-Text API。
- 创建服务帐号。
- 下载 JSON 格式的私钥。
您可以随时在 Cloud Console 中查看和管理这些资源。
-
将环境变量
GOOGLE_APPLICATION_CREDENTIALS
设置为包含您的服务帐号密钥的 JSON 文件的路径。 此变量仅适用于当前的 shell 会话,因此,如果您打开新的会话,请重新设置该变量。 - 安装并初始化 Cloud SDK。
发出音频转录请求
现在您可以使用 Speech-to-Text 将音频文件转录为文字。请使用以下代码示例向 Speech-to-Text API 发送 recognize
请求。
打开命令行 Shell 并运行以下命令。
gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac \ --language-code=en-US
此命令请求 Speech-to-Text 转录一个 FLAC 中包含的音频,该 FLAC 托管在一个可公开访问的位置。
如果请求成功,服务器将返回一个 JSON 格式的响应。
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
恭喜!您已向 Speech-to-Text 发送了您的第一个请求!
如果您收到来自 Speech-to-Text 的错误或空响应,请查看问题排查和纠错步骤。
后续步骤
- 练习转录短音频文件。
- 了解如何批量处理长音频文件以进行语音识别。
- 了解如何转录流式音频,例如来自麦克风的音频。
- 通过使用 Speech-to-Text 客户端库,以您选择的语言开始使用 Speech-to-Text。
- 上手体验示例应用。
- 如需了解关于最佳性能、准确度和其他方面的提示,请参阅最佳做法文档。