快速入门:使用 gcloud 工具

本页面介绍了如何从命令行使用 gcloud 工具向 Speech-to-Text 发送语音识别请求。

Speech-to-Text 能够将 Google 语音识别技术轻松集成到开发者应用中。您可以向 Speech-to-Text API 发送音频数据,然后该 API 会返回该音频文件的文字转录。如需详细了解该服务,请参阅 Speech-to-Text 基础知识

准备工作

  1. 登录您的 Google 帐号。

    如果您还没有 Google 帐号,请注册新帐号

  2. 设置 Cloud Console 项目。

    设置项目

    点击即可执行以下操作:

    • 创建或选择项目。
    • 为该项目启用 Speech-to-Text API。
    • 创建服务帐号。
    • 下载 JSON 格式的私钥。

    您可以随时在 Cloud Console 中查看和管理这些资源。

  3. 将环境变量 GOOGLE_APPLICATION_CREDENTIALS 设置为包含服务帐号密钥的 JSON 文件的路径。此变量仅适用于当前的 shell 会话,因此,如果您打开新的会话,请重新设置该变量。

  4. 安装并初始化 Cloud SDK

发出音频转录请求

现在您可以使用 Speech-to-Text 将音频文件转录为文字。请使用以下代码示例向 Speech-to-Text API 发送 recognize 请求。

打开命令行 Shell 并运行以下命令。

    gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac \
        --language-code=en-US
    

此命令请求 Speech-to-Text 转录一个 FLAC 中包含的音频,该 FLAC 托管在一个可公开访问的位置。

如果请求成功,则服务器返回 JSON 格式的响应:

    {
      "results": [
        {
          "alternatives": [
            {
              "confidence": 0.9840146,
              "transcript": "how old is the Brooklyn Bridge"
            }
          ]
        }
      ]
    }
    

恭喜!您已向 Speech-to-Text 发送了您的第一个请求!

如果您收到来自 Speech-to-Text 的错误或空响应,请查看问题排查纠错步骤。

后续步骤