参加 Next '21,获得有关最新 Speech-to-Text 功能实际运用的专属信息。 免费报名。

跳转到

Speech-to-Text

使用由 Google 的 AI 技术提供支持的 API 准确地将语音转换为文字。

  • action/check_circle_24px 使用 Sketch 创建。

    使用准确的字幕转录您的内容

  • action/check_circle_24px 使用 Sketch 创建。

    通过语音指令在产品中提供更好的用户体验

  • action/check_circle_24px 使用 Sketch 创建。

    从客户互动中汲取数据洞见,以改进您的服务

优势

领先的准确率

运用 Google 最先进的深度学习神经网络算法来运行自动语音识别 (ASR)。

轻松自定义模型

Speech-to-Text 界面支持实验、创建和管理自定义资源。

灵活部署

在需要的位置部署语音识别功能,无论是在云中(使用 API)还是在本地(使用 Speech-to-Text On-Prem)。

演示

实际试用 Speech-to-Text

如本演示所示,您可以使用 Speech-to-Text API 轻松地将语音转录功能融入您的应用。

主要特性

主要特性

语音自适应

通过提供提示来定制语音识别功能,以转录特定领域的术语和生僻字词,并提高特定字词或短语的转录准确率。使用类别自动将语音中的数字转换为地址、年份、货币或其他内容。

针对特定领域的模型

有几种预先训练的模型可供选择,让您可针对特定领域的质量要求实现优化的语音控制、电话和视频转录。例如,我们的增强型电话模型针对来自电话的音频(比如以 8khz 的采样率录制的电话通话)进行了调整。

轻松比较品质

使用我们易于使用的界面对您的语音音频进行实验。尝试使用不同的配置来优化质量和准确率。

Speech-to-Text On-Prem

全面掌控您的基础架构和受保护的语音数据,同时在自己的私有数据中心本地利用 Google 的语音识别技术。与销售人员联系,开启体验之旅。

查看所有特性

最新资讯

最新资讯

订阅 Google Cloud 简报,了解产品动态、活动安排、特别优惠以及更多资讯。

文档

文档

Google Cloud 基础知识
Speech-to-Text 基础知识

了解 Speech-to-Text 中的基本概念。

快速入门
快速入门:使用 Speech-to-Text 界面

了解如何设置您的项目和授权以及如何创建和优化转录,并了解如何在控制台中使用此配置。

快速入门
快速入门:使用 gcloud 工具

通过命令行使用 gcloud 工具向 Speech-to-Text 发送音频转录请求。

最佳实践
最佳实践

查看使用 Speech-to-Text 转录音频的最佳实践。

教程
ML onramp

探索 Speech-to-Text 教程、Codelab 等内容。

Google Cloud 基础知识
支持的语言

了解 Speech-to-Text 支持哪些语言,以及每种语言支持哪些功能和识别模型。

Google Cloud 基础知识
Speech-to-Text On-Prem

Speech-to-Text On-Prem 可将 Google 语音识别技术轻松集成到您的本地解决方案中。点击下方链接了解详情。

使用场景

使用场景

使用场景
改进客户服务

向您的呼叫中心添加 IVR(交互式语音响应)和客服人员对话,为您的客户服务系统提供助力。对您的对话数据执行分析,以深入了解通话和您的客户。 Speech-to-Text 及其增强型电话模型正在为 Google Cloud 的强大解决方案 Contact Center AI 提供支持。

工作流程:数据从“Contact Center 音频数据”(Contact Center Audio Data) 流经 Google Cloud 产品:Cloud Storage 到 (1) 利用 Speech-to-Text API 进行转录,经 Natural Language API 到 (2) 利用 Cloud Data Loss Prevention 进行分析,再到 (3) 利用 BigQuery 隐去 PII。然后数据流在 BigQuery 与“可视化呼叫数据”(Visualize Call Data) 之间双向流动,分别执行 (4) 存储与 (5) 查询并可视化操作。
使用场景
启用语音控制

实现语音指令(例如“调高音量”)和语音搜索(例如说出“巴黎的温度是多少?”)。将此功能与 Text-to-Speech API 结合使用可在 IoT(物联网)应用中提供支持语音的体验。

使用 Speech-to-Text API 进行语音控制的工作流。工作流始于 (1) 用户语音命令发往用户设备,用户设备与 (0) 使用 Cloud IoT Core 实现唯一安全身份存在双向流动,与 Cloud Functions 之间存在双向流动,然后 (2) 使用 Speech-to-Text API 进行转录,至 AutoML Natural Language,经 (3) 意图和实体提取后,回到 Cloud Functions 和用户设备。
使用场景
转录多媒体内容

转录您的音频和视频,加入字幕,并提升受众群体的覆盖率和体验。实时向您的流式传输内容添加字幕。我们的视频转录模型非常适合为视频和/或有多人说话的内容编制索引或编排字幕,该模型使用与 YouTube 上的视频字幕功能类似的机器学习技术。

转录多媒体内容工作流程:输入音频流通过 (1) 实时字幕到达 Google Kubernetes Engine,然后到 Speech-to-Text API,通过 (2) 评估转录到达深度学习虚拟机,前往 Firestore,然后到达内容审核团队,或者通过 (3) 存储和利用到达广播字幕设备。

所有特性

所有特性

全球词汇 利用 Speech-to-Text 广泛的语言支持(超过 125 种语言和语言变体),为全球用户群提供支持。
流式语音识别 在 API 处理通过应用的麦克风流式传输的音频输入或从预先录制的音频文件发送的音频输入(内嵌或通过 Cloud Storage)的同时,您可获得实时语音识别结果。
语音自适应 通过提供提示来定制语音识别功能,以转录特定领域的术语和生僻字词,并提高特定字词或短语的转录准确率。使用类别自动将语音中的数字转换为地址、年份、货币或其他内容。
Speech-to-Text On-Prem 全面掌控您的基础架构和受保护的语音数据,同时在自己的私有数据中心本地利用 Google 的语音识别技术。与销售人员联系,开启体验之旅。
多通道识别 Speech-to-Text 可在多通道情况(例如视频会议)下识别不同的通道,并为转录内容添加注释以保留相应的顺序。
抗噪音干扰 Speech-to-Text 可处理来自各种环境的嘈杂音频,而无需额外的降噪措施。
针对特定领域的模型 有几种训练模型可供选择,让您可针对特定领域的质量要求实现优化的语音控制、电话和视频转录。例如,我们的增强型电话模型针对来自电话的音频(例如以 8khz 的采样率录制的电话通话)进行了调整。
内容过滤 脏话过滤器可帮助您检测音频数据中不当或不专业的内容,并滤除文本结果中的亵渎性字词。
转录评估 上传您自己的语音数据,并进行转录,而无需使用代码。通过配置迭代来评估质量。
自动加注标点符号(Beta 版) Speech-to-Text 可准确地为转录的文本加注标点符号(如逗号、问号和句号)。
讲话者区分(Beta 版) 了解有哪些人讲话,都分别说了什么 - 您可以获得有关对话中哪位讲话者讲了哪句话的自动估测结果。

价格

价格

在 60 分钟的免费层级用完后,Speech-to-Text 以每 15 秒音频为单位计费。