查看 Google Cloud Next 的最新公告。 立即观看
跳转到

Speech-to-Text

使用由 Google 的精华 AI 研究成果和技术提供支持的 API,准确地将语音转换为文字。

新客户可获得 $300 赠金,用于抵扣 Speech-to-Text 的相关费用。所有客户每月均可免费使用 60 分钟的音频转录和分析功能,不计入赠金额度。

  • 使用准确的字幕来转录您的内容

  • 借助语音的力量来打造更出色的用户体验

  • 利用关于客户互动的数据分析改善您的服务

  • 使用我们的控制台教程快速上手

优势

领先的准确率

运用 Google 最先进的深度学习神经网络算法来进行自动语音识别 (ASR)。

轻松自定义模型

利用 Speech-to-Text 界面试验、创建和管理自定义资源。

灵活部署模型

在需要的位置部署 ASR,无论是在云端(使用 API)还是在本地(使用 Speech-to-Text On-Prem)。

演示

实际试用 Speech-to-Text

如同本演示所展示的那样,您可以使用 Speech-to-Text API 轻松地将语音转录功能融入您的应用。

主要特性

主要特性

语音自适应

提供相关提示来提高特定领域或生僻字词和短语的转录准确率。使用类别自动将语音中的数字转换为地址、年份、货币等内容。

特定领域的模型

多种预先训练的模型中进行选择,实现优化的语音控制、电话和视频转录,满足特定领域的质量要求。

轻松比较品质

使用我们简单易用的界面,对您的语音音频进行实验。尝试使用不同的配置来优化质量和准确率。

设备上的语音

无论能否连接到互联网,Google Cloud 的语音算法都只在设备本地运行。我们向用户承诺,他们的语音数据绝不会外泄。

Speech-to-Text 的基础模型

使用由 Chirp 提供支持的语音模型,构建面向全球受众群体、支持语音的应用。Chirp 是 Google Cloud 的语音基础模型,使用数百万小时的音频数据和数十亿个文本句子进行训练。

查看所有特性

最新资讯

最新资讯

订阅 Google Cloud 简报,了解产品动态、活动安排、特别优惠以及更多资讯。

文档

教程和使用入门资源

教程
控制台中的 Speech-to-Text 教程

了解如何将 Speech-to-Text 添加到现有应用。使用我们的控制台教程快速上手。

Google Cloud 基础知识
Speech-to-Text 基础知识

了解 Speech-to-Text 中的基本概念。

快速入门
快速入门:使用 Speech-to-Text 界面

了解如何设置您的项目和授权、如何创建和优化转录,以及如何在控制台中使用此配置。

快速入门
快速入门:使用 gcloud 工具

通过命令行使用 gcloud 工具向 Speech-to-Text 发送音频转录请求。

最佳实践
最佳实践

查看使用 Speech-to-Text 转录音频的最佳实践。

教程
机器学习入门

探索 Speech-to-Text 教程、Codelab 等内容。

Google Cloud 基础知识
支持的语言

了解 Speech-to-Text 支持哪些语言,以及每种语言支持哪些功能和识别模型。

Google Cloud 基础知识
Speech-to-Text On-Prem

Speech-to-Text On-Prem 可将 Google 语音识别技术轻松集成到您的本地解决方案中。点击下方链接了解详情。

使用场景

使用场景

使用场景
改进客户服务

向您的呼叫中心添加 IVR(交互式语音响应)和客服人员对话,为您的客户服务系统提供助力。对您的对话数据执行分析,以深入了解通话和您的客户。 Speech-to-Text 及其增强型电话模型正在为 Google Cloud 的强大解决方案 Contact Center AI 提供支持。

工作流程:数据从“Contact Center 音频数据”(Contact Center Audio Data) 流经 Google Cloud 产品:Cloud Storage 到 (1) 利用 Speech-to-Text API 进行转录,经 Natural Language API 到 (2) 利用 Cloud Data Loss Prevention 进行分析,再到 (3) 利用 BigQuery 隐去 PII。然后,数据流在 BigQuery 与“可视化呼叫数据”(Visualize Call Data) 之间双向流动,分别执行 (4) 存储与 (5) 查询,并进行可视化操作。
使用场景
启用语音控制

实现语音指令(例如“调高音量”)和语音搜索(例如询问“巴黎的温度是多少?”)。将此功能与 Text-to-Speech API 结合使用可在 IoT(物联网)应用中提供支持语音的体验。

使用 Speech-to-Text API 进行语音控制的工作流。工作流始于 (1) 用户向其设备发出语音命令,用户设备与 (0) 使用 Cloud IoT Core 实现唯一安全身份存在双向流动,以及与 Cloud Functions 之间存在双向流动,然后 (2) 使用 Speech-to-Text API 进行转写,至 AutoML Natural Language,经 (3) 意图和实体提取后,回到 Cloud Functions 和用户设备。
使用场景
转写多媒体内容

转录您的音频和视频以加入字幕,提升受众群体的覆盖面和体验。实时向您的流式传输内容添加字幕。我们的视频转写模型非常适合为视频和/或有多人说话的内容编制索引或编排字幕,该模型使用与 YouTube 上的视频字幕功能类似的机器学习技术。

转录多媒体内容工作流程:输入音频流通过 (1) 实时字幕到达 Google Kubernetes Engine,再到 Speech-to-Text API,通过 (2) 评估转录到达深度学习虚拟机,前往 Firestore,然后到达内容审核团队,或者通过 (3) 存储和利用到达广播字幕设备。

所有特性

所有特性

全球词汇 利用 Speech-to-Text 广泛的语言支持(超过 125 种语言和语言变体),为全球用户群提供支持。
流式语音识别 在 API 处理通过应用的麦克风流式传输的音频输入或从预先录制的音频文件发送的音频输入(内嵌或通过 Cloud Storage 传输)时,获得实时语音识别结果。
语音自适应 通过提供提示来定制语音识别功能,以转录特定领域的术语和生僻字词,并提高特定字词或短语的转录准确率。使用类别,自动将语音中的数字转换为地址、年份、货币或其他内容。
Speech-to-Text On-Prem 全面掌控您的基础架构和受保护的语音数据,同时在自己的本地私有数据中心利用 Google 的语音识别技术。与销售人员联系,开启体验之旅。
多通道识别 Speech-to-Text 可在多通道情况(例如视频会议)下识别不同的通道,并为转录内容添加注释以保留相应的顺序。
抗噪音干扰 Speech-to-Text 可处理来自各种环境的嘈杂音频,而无需额外的降噪措施。
针对特定领域的模型 多种预先训练的模型中进行选择,实现优化的语音控制、电话和视频转写,满足特定领域的质量要求。举例来说,我们的增强型电话模型针对来自电话的音频(例如以 8khz 采样率录制的电话通话)进行了优化。
内容过滤 脏话过滤器可帮助您检测音频数据中不当或不专业的内容,并滤除文本结果中的亵渎性字词。
转录评估 上传您自己的语音数据,并进行转录,而无需使用代码。通过配置迭代来评估质量。
自动加注标点符号(Beta 版) Speech-to-Text 可准确地为转录的文本加注标点符号(如逗号、问号和句号)。
讲话者区分(Beta 版) 获得有关对话中哪位讲话者讲了哪句话的自动估测结果,了解有哪些人讲话以及分别说了什么。

价格

价格

Speech-to-Text 基于服务成功处理的音频数量(以 1 秒为增量计算)按月收费。