试用 Gemini 3，这是 Gemini Enterprise Agent Platform 中最适合推理、编码和多模态理解的模型

Speech-to-Text

利用 Google AI 将语音转成文本

通过简单易用的 API，将音频转写为文字，并将语音识别功能集成到应用中。

新客户最高还可获享 $300 赠金，用于试用 Speech-to-Text 和其他 Google Cloud 产品。

功能

先进的语音 AI

Speech-to-Text 可以利用 Chirp 3，这是 Google Cloud 的语音基础模型，使用数百万小时的音频数据和数十亿个文本句子训练而成。这与传统语音识别技术（侧重于大量特定于语言的监督数据）形成了鲜明对比。这些技术可为用户更好地识别和转写更多口语和口音。

支持 85 种以上的语言和变体

面向全球用户群打造而成，广泛支持众多语言。可转写短音频、长音频甚至流式传输的音频数据。Speech-to-Text 还利用新一代通用语音模型 Chirp 3，为用户提供更加准确、覆盖全球的转写部署方案。

Chirp 3：转写功能是根据数百万小时的音频和 280 亿个句子的文本（涵盖 100 多种语言），通过自我监督训练构建而成。

转写短音频、长音频或流式音频

查看指南

流式语音识别

在 API 处理通过应用的麦克风流式传输的音频输入或从预先录制的音频文件发送的音频输入（内嵌或通过 Cloud Storage 传输）时，获得实时语音识别结果。

AI 赋能的语音识别和转写

Speech-to-Text 使用模型自适应技术来提高常用字词的准确性、扩充可用于转录的词汇，并改善嘈杂音频的转录效果。模型自适应可让用户自定义 Speech-to-Text，使其能够更频繁地使用同音字词中的某一个而非建议的其他选项。例如，您可以让 Speech-to-Text 在转录时更多地使用“时常”而不是“时长”。

开箱即用的监管和安全合规性

无需额外设置，Speech-to-Text API v2 即可帮助企业客户满足额外安全和监管要求。数据驻留支持通过完全区域化的服务（该服务接入至新加坡和比利时等 Google Cloud 区域）来调用转录模型。您可以在 Google Cloud 控制台中轻松查看关于资源生成和转写的日志。Speech-to-Text API v2 为所有资源以及批量转录提供使用客户管理的加密密钥的企业级加密。

语音自适应

通过提供提示来定制语音识别功能，以转录特定领域的术语和生僻字词，并提高特定字词或短语的转录准确率。使用类别，自动将语音中的数字转换为地址、年份、货币或其他内容。

Speech-to-Text On-Prem

全面掌控您的基础架构和受保护的语音数据，同时在自己的本地私有数据中心利用 Google 的语音识别技术。与销售人员联系，开启体验之旅。

多通道识别

Speech-to-Text 可在多通道场景（例如视频会议）下识别不同的通道，并为转录内容添加注释以保留相应的顺序。

抗噪音干扰

Speech-to-Text 可处理来自各种环境的嘈杂音频，而无需额外的降噪措施。

特定领域的模型

从多种经过训练的模型中进行选择，实现优化的语音控制、电话和视频转写，满足特定领域的质量要求。举例来说，我们的增强型电话模型针对来自电话的音频（例如以 8khz 采样率录制的电话通话）进行了优化。

内容过滤

脏话过滤器可帮助您检测音频数据中不当或不专业的内容，并滤除文本结果中的亵渎性字词。

评估转写效果

上传您自己的语音数据，并进行转录，而无需使用代码。通过配置迭代来评估质量。

自动加注标点符号（Beta 版）

Speech-to-Text 能够准确地为转录的文本加注标点符号，例如逗号、问号和句号。

讲话人区分

获得有关对话中哪位讲话者讲了哪句话的自动估测结果，了解有哪些人讲话以及分别说了什么。

比较 API 和 Agent Studio 中的 Speech-to-Text Chirp 模型

产品	它是什么	适用场景	主要特性
Chirp 3：Agent Platform 中的转写	简单易用的无代码的基于 Web 的图形界面。	快速测试音频文件、快速制作原型、创建音频转写、直接将音频或录音上传到网络浏览器。	- 增强了多语言检测和转写 - 支持 85 种以上的语言和变体转写 - 支持讲话人区分和模型自适应 - 自动语音识别，将音频转写为文本 - 多语言检测和转写
Chirp 3：基于 Speech-to-Text V2 API 的转写	此 API 是 Google 的新一代通用语音转文字模型，可统一多种语言的数据。	构建可伸缩的企业级应用。轻松将转写功能集成到现有软件中。	- 增强了多语言检测和转写 - 支持 85 种以上的语言和变体转写 - 支持讲话人区分和模型自适应 - 自动语音识别，将音频转写为文本 - 多语言检测和转写

Chirp 3：Agent Platform 中的转写

它是什么

简单易用的无代码的基于 Web 的图形界面。

适用场景

快速测试音频文件、快速制作原型、创建音频转写、直接将音频或录音上传到网络浏览器。

主要特性

- 增强了多语言检测和转写

- 支持 85 种以上的语言和变体转写

- 支持讲话人区分和模型自适应

- 自动语音识别，将音频转写为文本

- 多语言检测和转写

Chirp 3：基于 Speech-to-Text V2 API 的转写

它是什么

此 API 是 Google 的新一代通用语音转文字模型，可统一多种语言的数据。

适用场景

构建可伸缩的企业级应用。

轻松将转写功能集成到现有软件中。

主要特性

- 增强了多语言检测和转写

- 支持 85 种以上的语言和变体转写

- 支持讲话人区分和模型自适应

- 自动语音识别，将音频转写为文本

- 多语言检测和转写

工作方式

Speech-to-Text 有三种可执行语音识别的主要方法：同步、异步和流式传输。每种方法都会根据后期处理中是否需要转录定期或实时返回文本结果。简而言之，您输入音频数据，然后接收基于文本的回复。

了解如何将 Speech-to-Text 添加到应用

演示

试用 Speech-to-Text API

快速为上传的文件或直接对着麦克风的讲话创建音频转写内容。

常见用途

转录音频

创建音频转写内容

通过几个步骤创建音频转写内容，了解如何在 Google Cloud 控制台中使用 Speech-to-Text API。您还可以转写流式音频、短音频和长音频。

Speech-to-Text 上传工具预览

教程、快速入门和实验

创建音频转写内容

通过几个步骤创建音频转写内容，了解如何在 Google Cloud 控制台中使用 Speech-to-Text API。您还可以转写流式音频、短音频和长音频。

Speech-to-Text 上传工具预览

使用 AI 为视频添加字幕

利用 AI 为视频创建字幕

转写音频和视频以添加字幕。为现有内容添加字幕，或实时向流式传输内容添加字幕。我们的 Chirp 3: Transcription 非常适合为视频和/或有多人说话的内容编制索引或添加字幕，该模型使用与 YouTube 视频字幕类似的机器学习技术。

本教程介绍如何使用 Google Cloud AI 服务 Speech-to-Text API 和 Translation API 为视频添加字幕，并提供其他语言的本地化字幕。

教程、快速入门和实验

利用 AI 为视频创建字幕

转写音频和视频以添加字幕。为现有内容添加字幕，或实时向流式传输内容添加字幕。我们的 Chirp 3: Transcription 非常适合为视频和/或有多人说话的内容编制索引或添加字幕，该模型使用与 YouTube 视频字幕类似的机器学习技术。

本教程介绍如何使用 Google Cloud AI 服务 Speech-to-Text API 和 Translation API 为视频添加字幕，并提供其他语言的本地化字幕。

将 Speech-to-Text 添加到应用

如何将 Speech-to-Text 添加到应用

了解如何使用 Google Cloud 快速轻松地为您的应用启用 Speech-to-Text。本视频介绍了如何在没有丰富的机器学习模型经验的情况下，将 AI 添加到应用。使用预训练的 Speech-to-Text API，您可以快速轻松地为应用启用 AI。

将语音控制添加到应用

教程、快速入门和实验

如何将 Speech-to-Text 添加到应用

了解如何使用 Google Cloud 快速轻松地为您的应用启用 Speech-to-Text。本视频介绍了如何在没有丰富的机器学习模型经验的情况下，将 AI 添加到应用。使用预训练的 Speech-to-Text API，您可以快速轻松地为应用启用 AI。

将语音控制添加到应用

将音频转换为文本

利用 Google Cloud API 处理语言、语音、文本和翻译

在本课程中，您将使用 Speech-to-Text API 将音频文件转录为文本文件，使用 Google Cloud Translation API 进行翻译，并使用 Natural Language AI 创建合成语音。

教程、快速入门和实验

利用 Google Cloud API 处理语言、语音、文本和翻译

在本课程中，您将使用 Speech-to-Text API 将音频文件转录为文本文件，使用 Google Cloud Translation API 进行翻译，并使用 Natural Language AI 创建合成语音。

价格

Speech-to-Text 的定价方式	Speech-to-Text 的价格取决于 API 版本、声道数、批处理方法以及任何附加的 Google Cloud 服务费用（例如存储费用）。
API 版本	服务和功能	价格
Speech-to-Text V2 API	V2 为 Chirp 3 的多区域和单区域部署提供数据驻留。V2 包含审核日志记录，并支持客户管理的加密密钥。	$0.016 每分钟

Speech-to-Text 的定价方式

Speech-to-Text 的价格取决于 API 版本、声道数、批处理方法以及任何附加的 Google Cloud 服务费用（例如存储费用）。

API 版本

服务和功能

价格

Speech-to-Text V2 API

V2 为 Chirp 3 的多区域和单区域部署提供数据驻留。V2 包含审核日志记录，并支持客户管理的加密密钥。

$0.016

每分钟

查看 Speech-to-Text 的价格详情。

Speech-to-Text 的定价方式

Speech-to-Text 的价格取决于 API 版本、声道数、批处理方法以及任何附加的 Google Cloud 服务费用（例如存储费用）。

Speech-to-Text V2 API

服务和功能

V2 为 Chirp 3 的多区域和单区域部署提供数据驻留。V2 包含审核日志记录，并支持客户管理的加密密钥。

价格

$0.016

每分钟

查看 Speech-to-Text 的价格详情。

价格计算器

估算您每月的 Speech-To-Text 费用，包括具体区域的价格和费用。

定制报价

请与我们的销售团队联系，获取为贵组织量身定制的报价。

Speech-to-Text

利用 Google AI 将语音转成文本

产品要点

先进的语音 AI

支持 85 种以上的语言和变体

流式语音识别

AI 赋能的语音识别和转写

开箱即用的监管和安全合规性

语音自适应

Speech-to-Text On-Prem

多通道识别

抗噪音干扰

特定领域的模型

内容过滤

评估转写效果

自动加注标点符号（Beta 版）

讲话人区分

Speech-to-Text 有三种可执行语音识别的主要方法：同步、异步和流式传输。每种方法都会根据后期处理中是否需要转录定期或实时返回文本结果。简而言之，您输入音频数据，然后接收基于文本的回复。

试用 Speech-to-Text API

转录音频

创建音频转写内容

教程、快速入门和实验

创建音频转写内容

使用 AI 为视频添加字幕

利用 AI 为视频创建字幕

教程、快速入门和实验

利用 AI 为视频创建字幕

将 Speech-to-Text 添加到应用

如何将 Speech-to-Text 添加到应用

教程、快速入门和实验

如何将 Speech-to-Text 添加到应用

将音频转换为文本

利用 Google Cloud API 处理语言、语音、文本和翻译

教程、快速入门和实验

利用 Google Cloud API 处理语言、语音、文本和翻译

价格计算器

定制报价

开始概念验证

新客户最高可获享 $300 赠金，用于试用 Speech-to-Text 和其他 Google Cloud 产品

需要支持大型项目？

Speech-to-Text On-Prem

Speech-to-Text 基础知识

Speech-to-Text 代码示例