Speech-to-Text

使用由 Google 的AI 技术提供支持的 API 准确地将语音转换为文字。

免费试用
  • action/check_circle_24px 使用 Sketch 创建。

    使用准确的字幕转录您的内容

  • action/check_circle_24px 使用 Sketch 创建。

    通过语音命令在产品中提供更好的用户体验

  • action/check_circle_24px 使用 Sketch 创建。

    通过客户互动获得数据洞见,以改进您的服务

领先的准确率

运用 Google 最先进的深度学习神经网络算法来运行自动语音识别 (ASR)。

覆盖全球

通过支持超过 125 种语言和语言变体的语音识别功能满足全球用户的需求,而无论其身在何处。

加速创新

Text-to-SpeechNatural Language 中融合了 Google 的技术精华,可解锁语音聊天机器人或语音的情感分析等使用场景。

让 Speech-to-Text 开始运行

主要特性

语音自适应

通过提供提示来定制语音识别功能,以转录特定领域的术语和生僻字词,并提高特定字词或短语的转录准确率。使用类自动将语音中的数字转换为地址、年份、货币或其他内容。

特定领域的模型

有几种训练模型可供选择:针对特定领域的质量要求进行优化的语音控制、电话和视频转录。例如,我们的增强型电话模型针对来自电话的音频(比如以 8khz 的采样率录制的电话通话)进行了调整。

流式传输语音识别

当 API 处理通过应用的麦克风流式传输的音频输入或从预先录制的音频文件发送的音频输入(内嵌或通过 Cloud Storage)时,接收实时语音识别结果。

查看所有特性

文档

Google Cloud 基础知识
Speech-to-Text 基础知识

学习 Speech-to-Text 中的基本概念。

快速入门
快速入门:使用 gcloud 工具

使用 gcloud 工具通过命令行向 Speech-to-Text 发送音频转录请求。

最佳做法
最佳做法

查看使用 Speech-to-Text 转录音频的最佳做法。

教程
ML ONRAMP

探索 Speech-to-Text 教程、Codelab 等内容。

Google Cloud 基础知识
支持的语言

了解 Speech-to-Text 支持哪些语言,以及每种语言支持哪些功能和识别模型。

使用场景

使用场景
改进客户服务

向您的呼叫中心添加 IVR(交互式语音响应)和客服人员对话,为您的客户服务系统提供助力。对您的对话数据执行分析,以深入了解通话和您的客户。 Speech-to-Text 及其增强型电话模型正在为 Google Cloud 的强大解决方案 Contact Center AI 提供支持。

将 Contact Center  AI 与语音转文字技术结合使用可改进客户服务
使用场景
启用语音控制

实施语音指令(例如“调高音量”)和语音搜索(例如说出“巴黎的温度是多少?”)。将此功能与 Text-to-Speech API 结合使用可在 IoT(物联网)应用中提供支持语音的体验。

使用 Speech-to-Text API 进行语音控制的工作流
使用场景
转录多媒体内容

转录您的音频和视频,以加入字幕,并提升受众群体的覆盖率和体验。实时向您的数据流内容添加字幕。我们的视频转录模型非常适合为视频和/或有多人说话的内容编制索引或编排字幕,该模型使用与 YouTube 上的视频字幕类似的机器学习技术。

转录多媒体内容工作流

所有特性

全球词汇 利用 Speech-to-Text 广泛的语言支持(超出 125 种语言和语言变体),为全球用户群提供支持。
流式传输语音识别 当 API 处理通过应用的麦克风流式传输的音频输入或从预先录制的音频文件发送的音频输入(内嵌或通过 Cloud Storage)时,接收实时语音识别结果。
语音自适应 通过提供提示来定制语音识别功能,以转录特定领域的术语和生僻字词,并提高特定字词或短语的转录准确率。使用自动将语音中的数字转换为地址、年份、货币或其他内容。
多频道识别 Speech-to-Text 可在多频道情况(例如视频会议)下识别不同的频道,并为转录内容添加注释以保留相应的顺序。
抗噪音干扰 Speech-to-Text 可处理来自各种环境的嘈杂音频,而无需额外的降噪措施。
特定领域的模型 有几种训练模型可供选择:针对特定领域的质量要求进行优化的语音控制、电话和视频转录。例如,我们的增强型电话模型针对来自电话的音频(例如以 8khz 的采样率录制的电话通话)进行了调整。
内容过滤 脏话过滤器可帮助您检测音频数据中不当或不专业的内容,并滤除文本结果中的亵渎性字词。
自动检测语言(Beta 版) 在多语言场景下,最多可指定四种语言代码,Speech-to-Text 将正确识别所说的语言。
自动加注标点符号(Beta 版) Speech-to-Text 可准确地为转录的文本加注标点符号(如逗号、问号和句号)。
讲话者区分(Beta 版) 了解有哪些人讲话,都分别说了什么 - 您现在可以获得有关对话中哪位讲话者讲了哪句话的自动估测结果。

价格

在 60 分钟的免费层级用完后,Speech-to-Text 以每 15 秒音频为单位计费。