Speech-to-Text
使用由 Google 的 AI 技术提供支持的 API 准确地将语音转换为文字。
-
实时转录,或转录存储的文件
-
通过语音指令,在产品中提供更好的用户体验
-
从客户互动中汲取数据洞见,以改进您的服务
优势
领先的准确率
运用 Google 最先进的深度学习神经网络算法来运行自动语音识别 (ASR)。
遍及全球的覆盖范围
通过支持超过 125 种语言和语言变体的语音识别功能满足全球用户的需求,无论他们身在何处。
灵活部署
在需要的位置部署语音识别功能,无论是在云中(使用 API)还是在本地(使用 Speech-to-Text On-Prem)。
演示
实际试用 Speech-to-Text
如本演示所示,您可以使用 Speech-to-Text API 轻松地将语音转录功能融入您的应用。
客户
最新资讯
文档
文档
Speech-to-Text 基础知识
了解 Speech-to-Text 中的基本概念。
快速入门:使用 gcloud 工具
通过命令行使用 gcloud 工具向 Speech-to-Text 发送音频转录请求。
最佳做法
查看使用 Speech-to-Text 转录音频的最佳做法。
支持的语言
了解 Speech-to-Text 支持哪些语言,以及每种语言支持哪些功能和识别模型。
Speech-to-Text On-Prem
Speech-to-Text On-Prem 可将 Google 语音识别技术轻松集成到您的本地解决方案中。点击下方链接了解详情。
使用场景
使用场景
向您的呼叫中心添加 IVR(交互式语音响应)和客服人员对话,为您的客户服务系统提供助力。对您的对话数据执行分析,以深入了解通话和您的客户。 Speech-to-Text 及其增强型电话模型正在为 Google Cloud 的强大解决方案 Contact Center AI 提供支持。
实现语音指令(例如“调高音量”)和语音搜索(例如说出“巴黎的温度是多少?”)。将此功能与 Text-to-Speech API 结合使用可在 IoT(物联网)应用中提供支持语音的体验。
转录您的音频和视频,加入字幕,并提升受众群体的覆盖率和体验。实时向您的流式传输内容添加字幕。我们的视频转录模型非常适合为视频和/或有多人说话的内容编制索引或编排字幕,该模型使用与 YouTube 上的视频字幕类似的机器学习技术。
所有特性
所有特性
全球词汇 | 利用 Speech-to-Text 广泛的语言支持(超过 125 种语言和语言变体),为全球用户群提供支持。 |
流式传输语音识别 | 当 API 处理通过应用的麦克风流式传输的音频输入或从预先录制的音频文件发送的音频输入(内嵌或通过 Cloud Storage)时,接收实时语音识别结果。 |
语音自适应 | 通过提供提示来定制语音识别功能,以转录特定领域的术语和生僻字词,并提高特定字词或短语的转录准确率。使用类别自动将语音中的数字转换为地址、年份、货币或其他内容。 |
Speech-to-Text On-Prem | 全面掌控您的基础架构和受保护的语音数据,同时在自己的私有数据中心中本地利用 Google 的语音识别技术。与销售人员联系,开启体验之旅。 |
多通道识别 | Speech-to-Text 可在多通道情况(例如视频会议)下识别不同的通道,并为转录内容添加注释以保留相应的顺序。 |
抗噪音干扰 | Speech-to-Text 可处理来自各种环境的嘈杂音频,而无需额外的降噪措施。 |
特定领域的模型 | 有几种训练模型可供选择,让您可针对特定领域的质量要求实现优化的语音控制、电话和视频转录。例如,我们的增强型电话模型针对来自电话的音频(例如以 8khz 的采样率录制的电话通话)进行了调整。 |
内容过滤 | 脏话过滤器可帮助您检测音频数据中不当或不专业的内容,并滤除文本结果中的亵渎性字词。 |
自动检测语言(Beta 版) | 在多语言场景下,最多可指定四种语言代码,Speech-to-Text 将正确识别所说的语言。 |
自动加注标点符号(Beta 版) | Speech-to-Text 可准确地为转录的文本加注标点符号(如逗号、问号和句号)。 |
讲话者区分(Beta 版) | 了解有哪些人讲话,都分别说了什么 - 您可以获得有关对话中哪位讲话者讲了哪句话的自动估测结果。 |
价格
价格
Speech-to-Text 每月成功处理的前 60 分钟音频是免费的,然后以每 15 秒音频为单位计费。具体费率因使用的模型、是否启用了数据日志记录以及音频通道的数量而异。