Cloud Speech-to-Text

利用机器学习技术将语音转换为文本,无论音频长短均可实现。

免费试用

强大的语音识别功能

Google Cloud Speech API 让开发者可以借助易用的 API 并运用强大的神经网络模型来将语音转换为文本。该 API 能够识别 120 种语言和语言变体,可以支持您的全球用户群。您可以启用语音命令控制功能,转录来自呼叫中心的音频,以及进行其他操作。它可以使用 Google 的机器学习技术来处理实时流式传输或预先录制的音频。

speech-api-lead

立即将语音转换为文本

选择一种语言,然后点击“立即开始”以开始录音

采用机器学习技术

运用最先进的深度学习神经网络算法来分析音频,获得准确性无与伦比的语音识别结果。随着 Google 不断改进其产品所用的内部语音识别技术,Cloud Speech-to-Text 的准确性会逐步提高。

识别 120 种语言和语言变体

Cloud Speech-to-Text 能识别 120 种语言和语言变体,可以支持您的全球用户群。您还可以针对所有语言过滤文本结果中的不当内容。

自动识别口语

借助 Cloud Speech-to-Text,您可以识别讲出来的哪种语言(仅限四种语言)。这可以用于语音搜索(例如,“巴黎的温度是多少?”)和命令使用场景(例如,“调高音量。”)

实时返回长短音频的文本转录结果

Cloud Speech-to-Text 可以流式传输文本结果,它会在从流式传输的音频中识别出语音或在用户讲话时立即返回文本。此外,Cloud Speech-to-Text 也可以返回从文件存储的音频中识别出的文本。无论音频长短,它都能够分析。

自动转录专有名词和上下文相关格式

Cloud Speech-to-Text 经过量身定制,可以出色地处理现实生活中的语音,并可以准确转录专有名词(例如 Sundar Pichai)以及正确地转录格式语言(例如日期、电话号码)。Google 支持的专有名词数量是整部《牛津英语词典》中收录词汇量的 10 倍以上。

多种预建模型供您选择,完美贴合您的使用场景

Cloud Speech-to-Text 带有多个预建的语音识别模型,让您可以针对自己的使用场景(例如语音指令)进行优化。示例:我们预建的视频转录模型非常适合为视频和/或有多人说话的内容编制索引或配字幕,这些模型使用与 YouTube 字幕类似的机器学习技术。

模型 说明
command_and_search 最适合语音命令或语音搜索等简短的查询。
phone_call 最适合来自电话的音频(通常以 8khz 的采样率录制)
video 最适合来自视频的音频或有多人说话的音频。理想情况下,音频以 16khz 或更高的采样率录制。这是一个高于标准价格的高级模型。
default 最适合并不属于某一特定音频模型的音频。例如长音频。理想情况下,音频为高保真度格式,以 16khz 或更高的采样率录制。

Cloud Speech-to-Text 的特性

利用机器学习技术将语音转换为文本

自动语音识别
由深度学习神经网络技术驱动的自动语音识别 (ASR) 功能可帮助您的应用实现语音搜索或语音转录等功能。
全球词汇
包含丰富的词汇,可识别 120 种语言和语言变体。
短语提示
提供一组用户可能使用的词语和短语,以此针对特定的上下文来对语音识别进行定制。在需要向词库中添加自定义词语和名称时,以及在语音控制场景中,此功能特别有用。
支持实时流式传输的音频或预先录制的音频
可通过应用的麦克风流式传输音频输入,也可以通过预先录制的音频文件发送音频输入(内嵌或通过 Google Cloud Storage)。支持多种音频编码,包括 FLAC、AMR、PCMU 和 Linear-16。
自动检测语言测试版
当您需要支持多语言场景时,您现在可以指定两到四个语言代码,Cloud Speech-to-Text 将识别正确的语言并提供转录内容。
可抵御噪音
处理来自各种环境的嘈杂音频,无需额外的降噪措施。
过滤不当内容
针对部分语言过滤不当内容。
自动加注标点符号测试版
借助机器学习准确地为转录的文本加注标点符号(即逗号、问号和句号)。
模型选择测试版
有四种预建模型可供选择:默认、语音命令和搜索、电话、视频转录。
语者分类测试版
知道谁说了什么 - 您现在可以获得有关对话中的哪位讲话者讲了哪句话的自动预测。
多频道识别测试版
在多参与者录音内容中,每个参与者都会被记录在单独的频道中(例如,具有两个频道的电话或具有四个频道的视频会议),Cloud Speech-to-Text 将分别识别每个频道,然后为转录内容添加注释以使其遵循与现实中相同的顺序。

Cloud Speech-to-Text API 价格

强大的语音识别功能。

Cloud Speech-to-Text 在用完 60 分钟的免费方案后,以每 15 秒音频为单位收取费用。如需了解详情,请参阅我们的价格指南

功能 0-60 分钟 60 分钟 - 100 万分钟
语音识别(除视频外的所有模型) 免费 $0.006 USD/15 秒*
视频语音识别 $0.006 $0.012 USD/15 秒*

此价格适用于个人系统(例如手机、平板电脑、笔记本电脑、台式机)上的应用。要在嵌入式设备(如汽车、电视机、家电或音响设备)上使用 Speech-to-Text API,请与我们联系以获取批准并了解价格信息。

* 每个请求的时长均以 15 秒为增量向上舍入到最近的数字。例如,如果您发出三个单独的请求(每个请求包含 7 秒音频),系统会按 45 秒(3 × 15 秒)的音频向您收取 $0.0195 USD 的费用。以 15 秒为增量向上舍入到最近的数字时,秒数的小数部分也会纳入考虑范围。也就是说,15.14 秒将向上舍入为 30 秒进行计费。

此页面上列出的产品或功能处于测试版阶段。如需详细了解我们的产品发布阶段,请点击此处

发送以下问题的反馈:

此网页
Cloud Speech-to-Text API