设备端 Cloud Speech-to-Text

概览

设备端 Speech-to-Text 在嵌入式设备上支持服务器质量语音技术。借助此功能,您可以完全在设备端运行流式语音识别功能,而无需连接到网络或 Google 服务器。与服务器端解决方案相比,设备端解决方案在此使用场景下具有多种优势:即使设备未连接到网络或网络连接受限,也能使用语音识别;并且用户的数据不会离开设备。

主要功能
高质量的转录 将 Google 算法应用于自动语音识别。
离线 无互联网连接下的语音识别。
低延迟 语音识别功能在设备本地快速运行。
高效的模型 使用小于 1 GB 且消耗最少资源的模型以高效的方式部署。
语音活动检测 检测人类语音的开始和结束。
置信度 获取转录的置信度估算值。
模型自适应 提高特定领域或生僻字词和短语的转写准确率。

后续步骤

设备端语音以两种形式提供:作为库或 gRPC 服务器。

  1. libgspeech 是 Google Speech 的库接口。libgspeech 提供了对内存使用以及为 Google Speech 提供支持的推理图的额外控制。
  2. 语音服务器是 Google Speech 的 gRPC 服务器接口。该服务器适用于熟悉 Cloud Speech API 的用户。

如需获取访问权限,请与 Google 联系