本文档介绍了如何在 Dataform 中创建代码库、设置和修改代码库服务帐号以及删除代码库。
创建 Dataform 代码库时,您需要设置以下代码库设置:
- 代码库 ID
- 代码库的唯一 ID。ID 只能包含数字、字母、连字符和下划线。
- 区域
用于存储代码库及其内容的 Dataform 区域。
此存储区域可能与处理区域不同,Dataform 会在其中处理您的代码并存储执行的输出。默认情况下,处理区域设置为默认 BigQuery 数据集区域。创建代码库后,您可以在
dataform.json
文件中修改处理区域。如需了解详情,请参阅配置 Dataform 设置。- 服务账号
与代码库关联的服务账号。您可以选择默认的 Dataform 服务帐号、与您的 Google Cloud 项目关联的服务帐号,也可以手动输入其他服务帐号。默认情况下,Dataform 使用根据项目编号派生的服务帐号,其格式如下:
service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform 使用默认服务帐号执行所有代码库操作。您可以使用其他服务帐号来执行代码库中的工作流,但默认服务帐号仍用于所有其他代码库操作。
- 加密
代码库的加密方法。您可以使用默认加密或应用客户管理的 Cloud KMS 加密密钥。如需详细了解如何在 Dataform 中使用客户管理的加密密钥 (CMEK),请参阅使用客户管理的加密密钥。
创建代码库后,您可以将其连接到 GitHub 或 GitLab。
准备工作
- 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
启用 BigQuery and Dataform API。
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
启用 BigQuery and Dataform API。
- 如需对代码库使用 CMEK 加密,请对 Dataform 代码库启用 CMEK 加密。
所需的角色
如需获取创建和删除代码库所需的权限,请让管理员授予您针对代码库的 Dataform Admin (roles/dataform.admin
) IAM 角色。如需详细了解如何授予角色,请参阅管理访问权限。
如需使用默认 Dataform 服务帐号以外的服务帐号,请向自定义服务帐号授予访问权限。
创建代码库
如需创建 Dataform 代码库,请按以下步骤操作:
在 Google Cloud 控制台中,前往 Dataform 页面。
点击创建代码库。
在创建代码库页面的代码库 ID 字段中,输入一个唯一 ID。
ID 只能包含数字、字母、连字符和下划线。
在区域下拉列表中,选择用于存储代码库及其内容的 Dataform 区域。选择距离您最近的 Dataform 区域。
如需查看可用的 Dataform 区域列表,请参阅位置。代码库区域不必与 BigQuery 数据集的位置相匹配。
在
dataform.json
文件中,您可以设置处理区域,Dataform 会在该区域处理您的代码并存储执行的输出。处理区域必须与 BigQuery 数据集的位置一致,但不需要与代码库区域一致。如需了解详情,请参阅 配置 Dataform 设置。在服务帐号下拉列表中,选择代码库的服务帐号。
从下拉菜单中选择默认 Dataform 服务帐号,或与您有权访问的 Google Cloud 项目关联的任何服务帐号。请记住,自定义服务帐号仅用于执行工作流。所有其他代码库操作仍由默认的 Dataform 服务帐号执行。
- 可选:要选择下拉列表中未显示的服务帐号,请点击手动输入,然后输入服务帐号 ID。
在加密部分中,选择代码库的加密方法。
- 如需使用默认加密,请选择 Google 管理的加密密钥选项。
如需使用 CMEK,请选择客户管理的加密密钥 (CMEK) 选项。
- 在选择客户管理的密钥下拉列表中,为代码库选择 CMEK 密钥。
如需了解详情,请参阅 Dataform CMEK 限制。
点击创建,然后点击完成。
修改服务帐号
您可以将自定义服务帐号与 Dataform 代码库相关联,以便执行工作流。所有其他代码库操作仍由默认的 Dataform 服务帐号执行。
如需修改 Dataform 代码库的服务帐号,请按以下步骤操作:
在 Google Cloud 控制台中,前往 Dataform 页面。
选择代码库,然后点击设置。
在服务帐号字段中,点击
修改服务帐号。在服务帐号下拉列表中,选择代码库的服务帐号。
从下拉菜单中选择默认 Dataform 服务帐号,或与您有权访问的 Google Cloud 项目关联的任何服务帐号。
- 可选:要选择下拉列表中未显示的服务帐号,请点击手动输入,然后输入服务帐号 ID。
点击保存。
删除代码库
如需删除代码库及其所有内容,请按以下步骤操作:
在 Google Cloud 控制台中,前往 Dataform 页面。
对于要删除的代码库,点击
更多菜单,然后选择删除。在删除代码库窗口中,输入代码库的名称以确认删除。
点击删除。
后续步骤
如需了解如何配置 Dataform 处理设置,请参阅配置 Dataform 设置。
如需了解如何将 Dataform 代码库与第三方 Git 提供方相关联,请参阅连接到第三方 Git 代码库。
如需了解如何在 Dataform 中使用 CMEK,请参阅使用客户管理的加密密钥。
如需了解如何创建开发工作区,请参阅创建工作区。