Cloud Speech-to-Text

利用机器学习技术将语音转换为文本,无论音频长短都没有问题。

免费试用

查看此产品的文档

强大的语音识别功能

Google Cloud Speech-to-Text 让开发者可以借助易用的 API 并运用强大的神经网络模型来将语音转换为文本。该 API 能够识别 120 种语言和语言变体,可以支持您的全球用户群。您可以实现语音指令控制、呼叫中心音频转录等多种使用场景。借助 Google 的机器学习技术,它可以处理实时流式传输或预先录制的音频。

speech-api-lead

立即将语音转换为文字*

选择一种语言,然后点击“立即开始”以开始录音

*此演示基于使用 Cloud Text-to-Speech API 构建的示例应用/界面

采用机器学习技术

运用最先进的深度学习神经网络算法来分析音频,获得准确性无与伦比的语音识别结果。随着 Google 不断改进其产品所用的内部语音识别技术,Cloud Speech-to-Text 的准确性会逐步提高。

识别 120 种语言和语言变体

Cloud Speech-to-Text 能识别 120 种语言和语言变体,可以支持您的全球用户群。您还可以针对所有语言过滤文本结果中的不当内容。

自动识别所说的语言

借助 Cloud Speech-to-Text,您可以识别所讲的是哪种语言(仅限四种语言)。这可以用于语音搜索(例如,“巴黎的温度是多少?”)和命令使用场景(例如,“调高音量。”)

实时返回长短音频的文本转录结果

Cloud Speech-to-Text 可以流式传输文本结果,在从流式传输的音频中识别出语音时或在用户讲话时即时返回文本。此外,Cloud Speech-to-Text 也可以返回从文件内含的音频中识别出的文本。无论音频长短,它都能够分析。

自动转录专有名词并根据上下文设置格式

Cloud Speech-to-Text 经过专门设计,可以出色地处理现实生活中的语音,并可以准确转录专有名词(例如 Sundar Pichai)以及正确地设置语言格式(例如日期、电话号码)。Google 支持的专有名词数量是整部《牛津英语词典》收录词汇量的 10 倍以上。

多种预建模型供您选择,完美贴合您的使用场景

Cloud Speech-to-Text 附带多个预建的语音识别模型,您可以针对自己的使用场景(例如语音指令)对其进行优化。示例:我们预建的视频转录模型非常适合为视频和/或有多人说话的内容编制索引或配字幕,这些模型使用与 YouTube 字幕类似的机器学习技术。

模型 说明
command_and_search 最适合语音指令或语音搜索等简短的查询。
phone_call 最适合来自电话的音频(通常以 8khz 的采样率录制)
video 最适合来自视频的音频或有多人说话的音频。理想情况下,音频以 16khz 或更高的采样率录制。这是一个高于标准价格的高级模型。
default 最适合并不属于某一特定音频模型的音频。例如长音频。理想情况下,音频为高保真度格式,以 16khz 或更高的采样率录制。

Cloud Speech-to-Text 特性

利用机器学习技术将语音转换为文本。

自动语音识别
由深度学习神经网络技术驱动的自动语音识别 (ASR) 功能可帮助您的应用实现语音搜索或语音转录等功能。
全球词汇
包含丰富的词汇,可识别 120 种语言和语言变体。
定制语音识别功能
您可以指定多达 5000 个可能会使用的词汇或短语(例如产品名称)来为您的企业手动定制语音识别功能。还可以根据情境自动将语音中的数字转换为地址、年份或货币,或进行其他转换。
支持实时流式传输的音频或预先录制的音频
可通过应用的麦克风流式传输音频输入,也可以发送预先录制的音频文件作为音频输入(内嵌或通过 Google Cloud Storage)。支持多种音频编码,包括 FLAC、AMR、PCMU 和 Linear-16。
自动检测语言测试版
当您需要支持多语言场景时,您现在可以指定两个到四个语言代码,Cloud Speech-to-Text 将识别正确的语言并提供转录内容。
抗噪音干扰
处理来自各种环境的嘈杂音频,无需额外的降噪措施。
过滤不当内容
针对部分语言过滤不当内容。
自动加注标点符号测试版
借助机器学习技术准确地为转录的文本加注标点符号(如逗号、问号和句号)。
模型选择
有四种预建模型可供选择:默认、语音指令和搜索、电话、视频转录。
讲话者区分测试版
了解有哪些人讲话,都分别说了什么 - 您现在可以获得有关对话中哪位讲话者讲了哪句话的自动估测结果。
多频道识别
在有多个人讲话的录音中,如果每个人的语音都分别记录在单独的频道中(例如,具有两个频道的电话或具有四个频道的视频会议),Cloud Speech-to-Text 将分别识别每个频道,然后为转录内容添加注释以使其符合实际顺序。

Cloud Speech-to-Text API 价格

强大的语音识别功能。

在 60 分钟的免费层级限额用完后,Cloud Speech-to-Text 以每 15 秒音频为单位计费。如需了解详情,请参阅我们的价格指南

功能 标准模型(除增强型电话和视频以外的所有模型) 高级模型*(增强型电话和视频)
0-60 分钟 60 分钟以上 - 100 万分钟 0-60 分钟 60 分钟以上 - 100 万分钟
语音识别(不启用数据日志记录功能 - 默认) 免费 $0.006/15 秒** 免费 $0.009/15 秒**
语音识别(启用数据日志记录功能) 免费 $0.004/15 秒** 免费 $0.006/15 秒**

此价格适用于个人系统(例如手机、平板电脑、笔记本电脑、台式机)上的应用。若要在嵌入式设备(例如汽车、电视机、家用电器或音响设备)上使用 Cloud Speech-to-Text API,请与我们联系,以便申请批准并了解相关价格。

* 该服务目前仅提供美国英语版本

** 每个请求的时长均以 15 秒为增量向上取整到最近的数字。例如,如果您发出三个单独的请求(标准模型,每个请求包含 7 秒音频),系统会按 45 秒(3 × 15 秒)的音频向您收取 $0.018 美元的费用。以 15 秒为增量向上取整到最近的数字时,秒数的小数部分也会纳入考虑范围。也就是说,15.14 秒将向上舍入为 30 秒进行计费。

负载平衡图标

此页面上列出的一项产品或功能目前为测试版。如需详细了解我们的产品发布阶段,请点击此处

Cloud AI 产品遵循此处列出的服务等级协议 (SLA) 政策。这些政策在延迟时间或可用性方面的保证可能不同于其他 Google Cloud 服务。

发送以下问题的反馈:

此网页
Cloud Speech-to-Text API
需要帮助?请访问我们的支持页面