创建 Dataform 代码库

本文档介绍了如何在 Dataform 中创建代码库、设置和修改代码库服务帐号以及删除代码库。

创建 Dataform 代码库时,您需要设置以下代码库设置:

代码库 ID
代码库的唯一 ID。ID 只能包含数字、字母、连字符和下划线。
区域

用于存储代码库及其内容的 Dataform 区域。

此存储区域可能与处理区域不同,Dataform 会在其中处理您的代码并存储执行的输出。默认情况下,处理区域设置为默认 BigQuery 数据集区域。创建代码库后,您可以在 dataform.json 文件中修改处理区域。如需了解详情,请参阅配置 Dataform 设置

服务账号

与代码库关联的服务账号。您可以选择默认的 Dataform 服务帐号、与您的 Google Cloud 项目关联的服务帐号,也可以手动输入其他服务帐号。默认情况下,Dataform 使用根据项目编号派生的服务帐号,其格式如下:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Dataform 使用默认服务帐号执行所有代码库操作。您可以使用其他服务帐号来执行代码库中的工作流,但默认服务帐号仍用于所有其他代码库操作。

加密

代码库的加密方法。您可以使用默认加密或应用客户管理的 Cloud KMS 加密密钥。如需详细了解如何在 Dataform 中使用客户管理的加密密钥 (CMEK),请参阅使用客户管理的加密密钥

创建代码库后,您可以将其连接到 GitHub 或 GitLab

准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. 启用 BigQuery and Dataform API。

    启用 API

  5. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  6. 确保您的 Google Cloud 项目已启用结算功能

  7. 启用 BigQuery and Dataform API。

    启用 API

  8. 如需对代码库使用 CMEK 加密,请对 Dataform 代码库启用 CMEK 加密

所需的角色

如需获取创建和删除代码库所需的权限,请让管理员授予您针对代码库的 Dataform Admin (roles/dataform.admin) IAM 角色。如需详细了解如何授予角色,请参阅管理访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

如需使用默认 Dataform 服务帐号以外的服务帐号,请向自定义服务帐号授予访问权限

创建代码库

如需创建 Dataform 代码库,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 Dataform 页面。

    前往 Dataform

  2. 点击创建代码库

  3. 创建代码库页面的代码库 ID 字段中,输入一个唯一 ID。

    ID 只能包含数字、字母、连字符和下划线。

  4. 区域下拉列表中,选择用于存储代码库及其内容的 Dataform 区域。选择距离您最近的 Dataform 区域。

    如需查看可用的 Dataform 区域列表,请参阅位置。代码库区域不必与 BigQuery 数据集的位置相匹配。

    dataform.json 文件中,您可以设置处理区域,Dataform 会在该区域处理您的代码并存储执行的输出。处理区域必须与 BigQuery 数据集的位置一致,但不需要与代码库区域一致。如需了解详情,请参阅 配置 Dataform 设置

  5. 服务帐号下拉列表中,选择代码库的服务帐号。

    从下拉菜单中选择默认 Dataform 服务帐号,或与您有权访问的 Google Cloud 项目关联的任何服务帐号。请记住,自定义服务帐号仅用于执行工作流。所有其他代码库操作仍由默认的 Dataform 服务帐号执行。

    1. 可选:要选择下拉列表中未显示的服务帐号,请点击手动输入,然后输入服务帐号 ID。
  6. 加密部分中,选择代码库的加密方法。

    1. 如需使用默认加密,请选择 Google 管理的加密密钥选项。
    2. 如需使用 CMEK,请选择客户管理的加密密钥 (CMEK) 选项。

      1. 选择客户管理的密钥下拉列表中,为代码库选择 CMEK 密钥。

    如需了解详情,请参阅 Dataform CMEK 限制

  7. 点击创建,然后点击完成

修改服务帐号

您可以将自定义服务帐号与 Dataform 代码库相关联,以便执行工作流。所有其他代码库操作仍由默认的 Dataform 服务帐号执行。

如需修改 Dataform 代码库的服务帐号,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 Dataform 页面。

    前往 Dataform

  2. 选择代码库,然后点击设置

  3. 服务帐号字段中,点击 修改服务帐号

  4. 服务帐号下拉列表中,选择代码库的服务帐号。

    从下拉菜单中选择默认 Dataform 服务帐号,或与您有权访问的 Google Cloud 项目关联的任何服务帐号。

    1. 可选:要选择下拉列表中未显示的服务帐号,请点击手动输入,然后输入服务帐号 ID。
  5. 点击保存

删除代码库

如需删除代码库及其所有内容,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 Dataform 页面。

    前往 Dataform

  2. 对于要删除的代码库,点击 更多菜单,然后选择删除

  3. 删除代码库窗口中,输入代码库的名称以确认删除。

  4. 点击删除

后续步骤