请试用 Gemini 1.5 Pro（Vertex AI 中最先进的多模态模型），看看您可以通过包含 100 万个词元的上下文窗口构建什么。 请试用 Gemini 1.5 Pro（Vertex AI 中最先进的多模态模型），看看您可以通过包含 100 万个词元的上下文窗口构建什么。

使用 gcloud CLI 将语音转写为文字

本页面介绍了如何从命令行使用 gcloud 工具向 Speech-to-Text 发送语音识别请求。

Speech-to-Text 能够将 Google 语音识别技术轻松集成到开发者应用中。您可以向 Speech-to-Text API 发送音频数据，然后该 API 会返回该音频文件的文字转录。如需详细了解该服务，请参阅 Speech-to-Text 基础知识。

准备工作

您必须先完成以下操作，然后才能向 Speech-to-Text API 发送请求。如需了解详情，请参阅准备工作页面。

在 GCP 项目上启用 Speech-to-Text。
1. 确保已针对 Speech-to-Text 启用结算功能。
安装 Google Cloud CLI，然后通过运行以下命令初始化 Google Cloud CLI：
```
gcloud init
```
（可选）创建新的 Google Cloud Storage 存储桶以存储您的音频数据。

发出音频转录请求

现在您可以使用 Speech-to-Text 将音频文件转录为文字。请使用以下代码示例向 Speech-to-Text API 发送 recognize 请求。

打开命令行 Shell 并运行以下命令。

gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac \
    --language-code=en-US

此命令请求 Speech-to-Text 转录一个 FLAC 中包含的音频，该 FLAC 托管在一个可公开访问的位置。

如果请求成功，服务器将返回一个 JSON 格式的响应。

{
  "results": [
    {
      "alternatives": [
        {
          "confidence": 0.9840146,
          "transcript": "how old is the Brooklyn Bridge"
        }
      ]
    }
  ]
}

恭喜！您已向 Speech-to-Text 发送了您的第一个请求！

如果您收到来自 Speech-to-Text 的错误或空响应，请查看问题排查和纠错步骤。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用，请按照以下步骤操作。

使用 Google Cloud 控制台删除不需要的项目。

后续步骤

练习转录短音频文件。
了解如何批量处理长音频文件以进行语音识别。
了解如何转录流式音频，例如来自麦克风的音频。
通过使用 Speech-to-Text 客户端库，以您选择的语言开始使用 Speech-to-Text。
上手体验示例应用。
如需了解关于最佳性能、准确度和其他方面的提示，请参阅最佳做法文档。