Cloud Speech API

利用机器学习技术将语音转换为文字

免费试用 查看文档

强大的语音识别

Google Cloud Speech API 让开发者可以通过在一个易于使用的 API 中应用强大的神经网络模型将语音转换为文字。这个 API 能识别超过 80 种语言和语言变体,可以支持您的全球用户群。您可以转录用户对着应用的麦克风口述的内容,启用语音命令控制功能,转录音频文件,以及进行其他许多操作。利用 Google 在自有产品中采用的技术,您可以识别请求中上传的音频,并与您在 Google Cloud Storage 中存储的音频文件整合。

speech-api-lead

采用机器学习技术

向用户的音频应用最先进的深度学习神经网络算法,获得准确性无与伦比的语音识别结果。随着 Google 完善 Google 产品所用的内部语音识别技术,Speech API 的准确性会随时间不断提升

超过 80 种语言

Speech API 能识别超过 80 种语言和语言变体,可以支持您的全球用户群。您还可以过滤文字结果中的不当内容

实时返回文字结果

Speech API 可以流式传输文字结果,识别出部分结果就马上返回,在用户说话间立即显示识别的文字。此外,Speech API 也可以返回从文件中存储的音频识别出来的文字。

在嘈杂环境中也能准确识别

在将音频发送至 Speech API 之前,您不需要先做高级信号处理或降噪操作。这项服务可以成功处理来自各种环境的嘈杂音频

背景感知识别

在每次调用 API 时提供一组单独的文字提示,即可根据背景定制语音识别便。在设备/应用控制使用场景中此功能特别有用。

在任何设备上搭配应用使用

Speech API 支持可以发送 REST 或 gRPC 请求的任何设备,包括手机、PC、平板电脑和 IoT 设备(例如汽车、电视机、音响设备)。

Speech API 的特性

利用机器学习技术将语音转换为文字

自动语音识别
由深度学习神经网络技术提供支持的自动语音识别 (ASR) 可向您的应用提供语音搜索或语音转录等功能。
全球词汇
包含丰富的词汇,可识别超过 80 种语言和语言变体。
流式传输识别结果
在用户说话的同时返回识别结果。
文字提示
提供一组用户可能使用的文字和短语,即可针对特定的背景自定义语音识别。在添加自定义文字和名称到词汇中,以及在语音控制使用场景中,此功能特别有用。
支持实时或预先录制的音频
可通过应用的麦克风捕捉音频输入,也可以通过预先录制的音频文件发送音频输入。支持多种音频编码,包括 FLAC、AMR、PCMU 和 Linear-16。
噪音强健性
处理来自许多环境的嘈杂音频,无需额外的降噪操作。
过滤不当内容
针对部分语言过滤不当内容。
集成的 API
可在请求中上传音频文件,也可以将其与 Google Cloud Storage 集成。

CLOUD SPEECH API 价格

强大的语音识别

在用完 60 分钟的免费方案后,以每 15 秒的音频处理为单位收取费用。如需了解详情,请参阅我们的价格指南

每月使用量 每 15 秒价格*
0 - 60 分钟 免费
61 - 100 万分钟** $0.006

* 此价格适用于个人系统(例如手机、平板电脑、笔记本、台式机)上的应用。要在嵌入式设备(如汽车、电视机、家电或音响设备)上使用 Speech API,请与我们联系以获取批准和价格。

** 每月使用量上限为 100 万分钟