Chirp 是 Google 的新一代语音转文字模型。代表着多年的研究发展,Chirp 的第一个版本现在可用于 Speech-to-Text。我们计划改进 Chrp 并将其扩展到更多语言和领域。如需了解详情,请参阅我们的论文 Google USM。
我们使用与当前语音模型不同的架构训练 Chirp 模型。单个模型统一了多种语言的数据。但是,用户仍需指定模型应该用以识别语音的语言。Chirp 不支持其他模型所具备的某些 Google Speech 功能。如需查看完整列表,请参阅功能支持和限制。
模型标识符
Chirp 可在 Speech-to-Text API v2 中使用。您可以像使用任何其他模型一样使用它。
Chirp 的模型标识符为:chirp
。
可用的 API 方法
与其他模型相比,Chirp 将语音分成更大的块进行处理。这意味着它可能不适合真正的实时使用。Chirp 可通过以下 API 方法获得:
v2
Speech.Recognize
(非常适合短于 1 分钟的短音频)v2
Speech.BatchRecognize
(适合 1 分钟到 8 小时的长音频)
以下 API 方法不支持 Chirp:
v2
Speech.StreamingRecognize
v1
Speech.StreamingRecognize
v1
Speech.Recognize
v1
Speech.LongRunningRecognize
v1p1beta1
Speech.StreamingRecognize
v1p1beta1
Speech.Recognize
v1p1beta1
Speech.LongRunningRecognize
区域
Chirp 适用于以下区域:
us-central1
europe-west4
asia-southeast1
如需了解详情,请参阅语言页面。
语言
您可以在完整语言列表中查看支持的语言。
功能支持和限制
Chirp 不支持某些 STT API 功能:
- 置信度分数:API 会返回一个值,但这不是真正的置信度分数。
- 语音自适应 - 不支持自适应功能。
- 区分:不支持自动区分。
- 强制归一化 - 不支持。
- 字词级置信度 - 不支持。
- 语言检测 - 不支持。
Chirp 支持以下功能:
- 自动加注标点符号:标点符号由模型预测。可以将其停用。
- 字词计时:酌情返回。
- 与语言无关的音频转写:模型会自动推断出音频文件中的口语,并将其添加到结果中。
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Speech-to-Text APIs.
-
Make sure that you have the following role or roles on the project: Cloud Speech Administrator
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
进入 IAM - 选择项目。
- 点击 授予访问权限。
-
在新的主账号字段中,输入您的用户标识符。 这通常是 Google 账号的电子邮件地址。
- 在选择角色列表中,选择一个角色。
- 如需授予其他角色,请点击 添加其他角色,然后添加其他各个角色。
- 点击 Save(保存)。
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Speech-to-Text APIs.
-
Make sure that you have the following role or roles on the project: Cloud Speech Administrator
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
进入 IAM - 选择项目。
- 点击 授予访问权限。
-
在新的主账号字段中,输入您的用户标识符。 这通常是 Google 账号的电子邮件地址。
- 在选择角色列表中,选择一个角色。
- 如需授予其他角色,请点击 添加其他角色,然后添加其他各个角色。
- 点击 Save(保存)。
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
-
If you're using a local shell, then create local authentication credentials for your user account:
gcloud auth application-default login
You don't need to do this if you're using Cloud Shell.
客户端库可以使用应用默认凭据轻松进行 Google API 身份验证,并向这些 API 发送请求。借助应用默认凭据,您可以在本地测试应用并部署它,无需更改底层代码。如需了解详情,请参阅 使用客户端库时进行身份验证。
此外,请确保您已安装客户端库。
使用 Chirp 执行同步语音识别
下面的示例展示了如何使用 Chirp 对本地音频文件执行同步语音识别:
Python
在启用与语言无关的转录的情况下发出请求
以下代码示例演示了如何在启用与语言无关的转录的情况下发出请求。
Python
在 Google Cloud 控制台中开始使用 Chirp
- 确保您已注册 Google Cloud 账号并创建项目。
- 前往 Google Cloud 控制台中的语音。
- 启用 API(如果尚未启用)。
- 前往转写子页面。
- 点击新建转写
确保您拥有 STT 工作区。如果没有,请创建一个。
打开工作区下拉菜单,然后点击新建工作区。
在创建新工作区导航边栏中,点击浏览。
点击以创建存储桶。
输入存储桶的名称,然后点击继续。
点击创建。
创建存储桶后,点击选择以选择存储桶。
点击创建以完成为 Speech-to-Text 创建工作区的过程。
对音频执行转写。
- 在新建转写页面中,选择用于选择音频文件的选项:
- 点击本地上传进行上传。
- 点击 Cloud Storage 以指定现有的 Cloud Storage 文件。
- 点击继续。
在转写选项部分中,从您之前创建的识别器中选择您计划用于使用 Chirp 进行识别的口语。
在模型* 下拉菜单中,选择 Chirp。
在区域下拉菜单中,选择一个区域,例如 us-central1。
点击继续。
如需使用 Chirp 运行您的第一个识别请求,请点击主部分中的提交。
- 在新建转写页面中,选择用于选择音频文件的选项:
查看您的 Chirp 转写结果。
在转写页面中,点击转写名称。
在转写详情页面中,查看转写结果,并酌情在浏览器中播放音频。
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
-
Optional: Revoke the authentication credentials that you created, and delete the local credential file.
gcloud auth application-default revoke
-
Optional: Revoke credentials from the gcloud CLI.
gcloud auth revoke
控制台
gcloud
Delete a Google Cloud project:
gcloud projects delete PROJECT_ID