使用 gcloud CLI 将语音转写为文字
本页面介绍了如何从命令行使用 gcloud
工具向 Speech-to-Text 发送语音识别请求。
Speech-to-Text 能够将 Google 语音识别技术轻松集成到开发者应用中。您可以向 Speech-to-Text API 发送音频数据,然后该 API 会返回该音频文件的文字转录。如需详细了解该服务,请参阅 Speech-to-Text 基础知识。
准备工作
您必须先完成以下操作,然后才能向 Speech-to-Text API 发送请求。如需了解详情,请参阅准备工作页面。
- 在 GCP 项目上启用 Speech-to-Text。
- 确保已针对 Speech-to-Text 启用结算功能。
-
Install the Google Cloud CLI, then initialize it by running the following command:
gcloud init
- (可选)创建新的 Google Cloud Storage 存储桶以存储您的音频数据。
发出音频转录请求
现在您可以使用 Speech-to-Text 将音频文件转录为文字。请使用以下代码示例向 Speech-to-Text API 发送 recognize
请求。
打开命令行 Shell 并运行以下命令。
gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac \ --language-code=en-US
此命令请求 Speech-to-Text 转写一个 FLAC 中包含的音频,该 FLAC 托管在一个可公开访问的位置。
如果请求成功,服务器将返回一个 JSON 格式的响应。
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
恭喜!您已向 Speech-to-Text 发送了您的第一个请求!
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
- 使用 Google Cloud 控制台删除不需要的项目。
后续步骤
- 练习转录短音频文件。
- 了解如何批量处理长音频文件以进行语音识别。
- 了解如何转录流式音频,例如来自麦克风的音频。
- 通过使用 Speech-to-Text 客户端库,以您选择的语言开始使用 Speech-to-Text。
- 上手体验示例应用。
- 如需了解关于最佳性能、准确度和其他方面的提示,请参阅最佳做法文档。