Cloud Speech API

利用机器学习技术将语音转换为文本

免费试用

强大的语音识别

Google Cloud Speech API 让开发者可通过一个易用的 API 来运用强大的神经网络模型,以便将语音转换为文本。这个 API 能识别超过 110 种语言和语言变体,可以支持您的全球用户群。您可以转录用户在应用中对着麦克风口述的内容,实现语音命令控制功能,转录音频文件,以及进行其他许多操作。利用 Google 在自有产品中采用的技术,您可以识别通过请求上传的音频,也可以整合您在 Google Cloud Storage 中存储的音频文件。

speech-api-lead

采用机器学习技术

运用最先进的深度学习神经网络算法来分析用户的音频,获得准确性无与伦比的语音识别结果。随着 Google 完善 Google 产品所用的内部语音识别技术,Speech API 的准确性会随时间不断提升

超过 110 种语言

Speech API 能识别超过 110 种语言和语言变体,可以支持您的全球用户群。您还可以过滤文本结果中的不当内容

实时返回文本结果

Speech API 可以流式传输文本结果,识别出部分结果就马上返回,在用户说话过程中立即显示识别出的文本。此外,Speech API 也可以返回从文件存储的音频中识别出的文本。

在嘈杂环境中也能准确识别

在将音频发送至 Speech API 之前,您不需要先做高级信号处理或降噪操作。该服务可以顺利处理来自各种环境的嘈杂音频

上下文感知识别

系统会为每次 API 调用提供一组单独的文本提示,以此根据上下文对语音识别功能进行定制。在设备/应用控制场景中,此功能特别有用。

支持任何设备上的应用

Speech API 支持可以发送 REST 或 gRPC 请求的任何设备,包括手机、PC、平板电脑和 IoT 设备(例如汽车、电视机、音响设备)。

Speech API 的特性

利用机器学习技术将语音转换为文本

自动语音识别
由深度学习神经网络技术驱动的自动语音识别 (ASR) 功能可帮助您的应用实现语音搜索或语音转录等功能。
全球词汇
包含丰富的词汇,可识别超过 110 种语言和语言变体。
流式传输识别结果
在用户说话的同时返回识别结果。
文字提示
提供一组用户可能使用的词语和短语,以此针对特定的上下文来对语音识别进行定制。在需要向词库中添加自定义词语和名称时,以及在语音控制场景中,此功能特别有用。
支持实时或预先录制的音频
可通过应用的麦克风捕捉音频输入,也可以通过预先录制的音频文件发送音频输入。支持多种音频编码,包括 FLAC、AMR、PCMU 和 Linear-16。
可抵御噪音
处理来自各种环境的嘈杂音频,无需额外的降噪操作。
过滤不当内容
针对部分语言过滤不当内容。
集成式 API
可在请求中上传音频文件,也可以将其与 Google Cloud Storage 集成。

CLOUD SPEECH API 价格

强大的语音识别

在用完 60 分钟的免费方案后,以每 15 秒的音频处理为单位收取费用。如需了解详情,请参阅我们的价格指南

每月使用量 每 15 秒价格*
0 - 60 分钟 免费
61 - 100 万分钟** $0.006
如果您使用非美元货币付费,则请参阅在 Cloud Platform SKU 上以您的币种列出的价格。

* 此价格适用于个人系统(例如手机、平板电脑、笔记本、台式机)上的应用。要在嵌入式设备(如汽车、电视机、家电或音响设备)上使用 Speech API,请与我们联系以取得批准并了解价格。

** 每月使用量上限为 100 万分钟