使用 Google Cloud 控制台将语音转录为文字

此快速入门为您介绍 Cloud Speech-to-Text 控制台。在本快速入门中,您将创建和优化转录,并了解如何在自己的应用中将此配置与 Speech-to-Text API 搭配使用。

如需了解如何使用 REST API 而非控制台发送请求和接收响应,请参阅准备工作页面。

准备工作

在开始使用 Speech-to-Text 控制台之前,您必须在 Google Cloud Platform Console 中启用 API。以下步骤将引导您完成后续操作:

  • 在项目上启用 Speech-to-Text。
  • 确保已针对 Speech-to-Text 启用结算功能。

设置您的 Google Cloud 项目

  1. 登录 Google Cloud 控制台

  2. 转到项目选择器页面

    您可以选择现有项目,也可以创建一个新项目。如需详细了解如何创建项目,请参阅 Google Cloud Platform 文档

  3. 如果您创建新项目,则系统会提示您将一个结算账号关联到该项目。如果您使用的是现有项目,请确保已启用结算功能。

    了解如何确认项目已启用结算功能

  4. 选择项目并将其关联到结算账号后,您就可以启用 Speech-to-Text API。转到页面顶部的搜索产品和资源栏,然后输入“speech”

  5. 从结果列表中选择 Cloud Speech-to-Text API

  6. 要在不将其与项目关联的情况下试用 Speech-to-Text,请选择试用此 API 选项。如需启用 Speech-to-Text API 以用于您的项目,请点击启用

创建转录

使用 Google Cloud 控制台创建新的转写:

音频配置

  1. 打开 Speech-to-Text 概览

    Speech-to-text“概览”页面的屏幕截图。

  2. 点击创建转录

    • 如果这是您第一次使用控制台,系统会要求您选择 Cloud Storage 中存储配置和转录的位置。
      Speech-to-text“创建转录”页面的屏幕截图。
  3. 创建转录页面中,上传源音频文件。您可以选择保存在 Cloud Storage 中的现有文件,也可以将新文件上传到指定的 Cloud Storage 目标位置。

  4. 选择上传的音频文件的编码类型

  5. 指定其采样率

  6. 点击继续。您将转到转录选项

转录选项

  1. 选择源音频的语言代码。这是录音中使用的语言。

  2. 选择您要对该文件使用的转录模型。默认选项是预先选定的,通常不需要更改,但将模型与音频类型匹配可能会提高准确率。注意,模型费用各不相同。

    Speech-to-text“创建转录”页面的屏幕截图。

  3. 点击继续。您将转到模型自适应

模型自适应(可选)

如果源音频包含生僻字词、专有名词或专有术语等内容,导致识别出现问题,则模型自适应可能会有所帮助。

  1. 选中启用模型自适应

  2. 选择一次性自适应资源

  3. 添加相关短语并为其提供增强值

    Speech-to-text“创建转录”页面的屏幕截图。

  4. 在左侧列中,点击提交以创建转录。

查看转录

创建转录可能需要几分钟到数小时,具体取决于音频文件的大小。创建转录后,即可进行查看。按时间戳对表进行排序有助于您轻松找到最近的转录。

  1. 点击要查看的转录的名称

    Speech-to-text“转录列表”页面的屏幕截图。
  2. 转录文本与音频文件进行比较。

    Speech-to-text“转录列表”页面的屏幕截图。
  3. 如果您要进行更改,请点击重复使用配置。系统会将您转到创建转录流,其中预先选择了相同的选项,这样您就可以根据需要更改一些内容、创建新的转录并比较结果。

后续步骤