通过简单易用的 API,将音频转换为文字转写,并将语音识别功能集成到应用中。
新客户最高还可获享 $300 赠金,用于试用 Speech-to-Text 和其他 Google Cloud 产品。
功能
通过广泛的语言支持打造全球用户群。转录短音频、长音频甚至流式传输的音频数据。Speech-to-Text 还利用新一代通用语音模型 Chirp,为用户提供更加准确、覆盖全球的翻译和识别。Chirp 使用数百万小时的音频和 280 亿个句子的文本(涵盖 100 多种语言)的自监督训练构建而成。
从多种经过训练的模型中进行选择,实现优化的语音控制、电话和视频转录,满足特定领域的质量要求。通过 Speech-to-Text 界面,轻松自定义、试验、创建和管理自定义资源。
无需额外设置,Speech-to-Text API v2 即可帮助企业客户满足额外安全和监管要求。数据驻留支持通过完全区域化的服务(该服务接入至新加坡和比利时等 Google Cloud 区域)来调用转录模型。借助识别器应变性 (resourcefulness),您无需使用专用服务账号进行身份验证和授权。您可以在 Google Cloud 控制台中轻松查看关于资源生成和转写的日志。Speech-to-Text API v2 为所有资源以及批量转录提供使用客户管理的加密密钥的企业级加密。
Speech-to-Text 使用模型自适应技术来提高常用字词的准确性、扩充可用于转录的词汇,并改善嘈杂音频的转录效果。模型自适应可让用户自定义 Speech-to-Text,使其能够更频繁地使用同音字词中的某一个而非建议的其他选项。例如,您可以让 Speech-to-Text 在转录时更多地使用“时常”而不是“时长”。
在 API 处理通过应用的麦克风流式传输的音频输入或从预先录制的音频文件发送的音频输入(内嵌或通过 Cloud Storage 传输)时,获得实时语音识别结果。
Speech-to-Text 可在多通道情况(例如视频会议)下识别不同的通道,并为转录内容添加注释以保留相应的顺序。
Speech-to-Text 可处理来自各种环境的嘈杂音频,而无需额外的降噪措施。
从多种经过训练的模型中进行选择,实现优化的语音控制、电话和视频转写,满足特定领域的质量要求。举例来说,我们的增强型电话模型针对来自电话的音频(例如以 8khz 采样率录制的电话通话)进行了优化。
脏话过滤器可帮助您检测音频数据中不当或不专业的内容,并滤除文本结果中的亵渎性字词。
上传您自己的语音数据,并进行转录,而无需使用代码。通过配置迭代来评估质量。
Speech-to-Text 能够准确地为转录的文本加注标点符号,例如逗号、问号和句号。
获得有关对话中哪位讲话者讲了哪句话的自动估测结果,了解有哪些人讲话以及分别说了什么。
工作方式
Speech-to-Text 有三种主要方法来执行语音识别:同步、异步和流式。每种方法都会根据后期处理中是否需要转录定期或实时返回文本结果。简而言之,您输入音频数据,然后接收基于文本的回复。
演示
快速为上传的文件或直接对着麦克风的讲话创建音频转写内容。
常见用途
创建音频转写内容
了解如何在 Cloud 控制台中使用 Speech-to-Text API 只通过几个步骤创建音频转写内容。您还可以转录短音频、长音频和流式音频。
创建音频转写内容
了解如何在 Cloud 控制台中使用 Speech-to-Text API 只通过几个步骤创建音频转写内容。您还可以转录短音频、长音频和流式音频。
如何将 Speech-to-Text 添加到应用
了解如何借助 Google Cloud 快速轻松地为您的应用启用 Speech-to-Text。此视频介绍了如何在没有大量机器学习模型经验的情况下将 AI 添加到您的应用。利用预训练的 Speech-to-Text API,您可以快速轻松地为应用启用 AI。
如何将 Speech-to-Text 添加到应用
了解如何借助 Google Cloud 快速轻松地为您的应用启用 Speech-to-Text。此视频介绍了如何在没有大量机器学习模型经验的情况下将 AI 添加到您的应用。利用预训练的 Speech-to-Text API,您可以快速轻松地为应用启用 AI。
利用 Google Cloud API 处理语言、语音、文本和翻译
在本课程中,您将使用 Speech-to-Text API 将音频文件转录为文本文件,使用 Google Cloud Translation API 进行翻译,并使用 Natural Language AI 创建合成语音。
利用 Google Cloud API 处理语言、语音、文本和翻译
在本课程中,您将使用 Speech-to-Text API 将音频文件转录为文本文件,使用 Google Cloud Translation API 进行翻译,并使用 Natural Language AI 创建合成语音。
价格
Speech-to-Text 的定价方式 | Speech-to-Text 的价格取决于 API 版本、音频通道、批处理方法以及任何附加的 Google Cloud 服务费用(例如存储费用)。 | |
---|---|---|
API 版本 | 服务和功能 | 价格 |
Speech-to-Text V1 API | V1 仅针对多区域提供数据驻留。提供的模型包括短音频、长音频、电话通话和视频。V1 不包括审核日志记录。新客户可获享 $300 赠金以及每月 60 分钟的免费音频转录和分析服务,不计入赠金额度。 | $0.024 每分钟 |
Speech-to-Text V2 API | V2 为多区域和单区域提供数据驻留。模型包括短音频、长音频、电话通话、视频和 Chirp。V2 包含审核日志记录,并支持客户管理的加密密钥。 | $0.016 每分钟 |
查看 Speech-to-Text 的价格详情。
Speech-to-Text 的定价方式
Speech-to-Text 的价格取决于 API 版本、音频通道、批处理方法以及任何附加的 Google Cloud 服务费用(例如存储费用)。
Speech-to-Text V1 API
V1 仅针对多区域提供数据驻留。提供的模型包括短音频、长音频、电话通话和视频。V1 不包括审核日志记录。新客户可获享 $300 赠金以及每月 60 分钟的免费音频转录和分析服务,不计入赠金额度。
$0.024
每分钟
Speech-to-Text V2 API
V2 为多区域和单区域提供数据驻留。模型包括短音频、长音频、电话通话、视频和 Chirp。V2 包含审核日志记录,并支持客户管理的加密密钥。
$0.016
每分钟
查看 Speech-to-Text 的价格详情。