使用 gcloud CLI 将语音转写为文字

本页面介绍了如何从命令行使用 gcloud 工具向 Speech-to-Text 发送语音识别请求。

Speech-to-Text 能够将 Google 语音识别技术轻松集成到开发者应用中。您可以向 Speech-to-Text API 发送音频数据,然后该 API 会返回该音频文件的文字转录。如需详细了解该服务,请参阅 Speech-to-Text 基础知识

准备工作

您必须先完成以下操作,然后才能向 Speech-to-Text API 发送请求。如需了解详情,请参阅准备工作页面。

  • 在 GCP 项目上启用 Speech-to-Text。
    1. 确保已针对 Speech-to-Text 启用结算功能。
  • 安装 Google Cloud CLI,然后通过运行以下命令初始化 Google Cloud CLI:

    gcloud init
  • (可选)创建新的 Google Cloud Storage 存储桶以存储您的音频数据。

发出音频转录请求

现在您可以使用 Speech-to-Text 将音频文件转录为文字。请使用以下代码示例向 Speech-to-Text API 发送 recognize 请求。

打开命令行 Shell 并运行以下命令。

gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac \
    --language-code=en-US

此命令请求 Speech-to-Text 转录一个 FLAC 中包含的音频,该 FLAC 托管在一个可公开访问的位置。

如果请求成功,服务器将返回一个 JSON 格式的响应。

{
  "results": [
    {
      "alternatives": [
        {
          "confidence": 0.9840146,
          "transcript": "how old is the Brooklyn Bridge"
        }
      ]
    }
  ]
}

恭喜!您已向 Speech-to-Text 发送了您的第一个请求!

如果您收到来自 Speech-to-Text 的错误或空响应,请查看问题排查纠错步骤。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

后续步骤