创建 Dataform 代码库

本文档介绍了如何创建仓库以及如何设置和修改仓库 服务账号,并在 Dataform 中删除代码库。

创建 Dataform 代码库时,您需要设置以下内容 代码库设置:

代码库 ID
代码库的唯一 ID。ID 只能包含数字、字母、连字符 和下划线。
区域

用于存储代码库及其内容的 Dataform 区域。

此存储区域可以不同于处理 Dataform 会处理您的代码并存储执行结果。 默认情况下,处理区域设置为您的默认 BigQuery 数据集区域。您可以在工作流设置文件中修改处理区域 创建代码库后如需了解详情,请参阅 配置 Dataform 设置

服务账号

与代码库关联的服务账号。您可以选择默认值 Dataform 服务账号,该服务账号 Google Cloud 项目,或手动输入其他服务账号。默认情况下 Dataform 使用根据您的项目编号生成的服务账号 以下格式:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Dataform 为所有代码库使用默认服务账号 操作。您可以使用其他服务账号执行工作流 但默认服务账号仍用于 其他代码库操作

加密

代码库的加密方法。您可以使用 默认加密 或应用客户管理的 Cloud KMS 加密密钥。 详细了解如何使用 客户管理的加密密钥 (CMEK) Dataform 部分,请参阅使用客户管理的加密密钥

创建代码库后,您可以 将其连接到 GitHub 或 GitLab

准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  8. 如需对代码库使用 CMEK 加密,请为 Dataform 代码库启用 CMEK 加密

所需的角色

如需获取创建和删除代码库所需的权限, 请让管理员向您授予 针对代码库的 Dataform Admin (roles/dataform.admin) IAM 角色。 如需详细了解如何授予角色,请参阅管理访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

使用默认 Dataform 服务以外的服务账号 账号,授予对自定义服务账号的访问权限

创建代码库

如需创建 Dataform 代码库,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 Dataform 页面。

    转到 Dataform

  2. 点击创建代码库

  3. 创建代码库页面的代码库 ID 字段中, 输入唯一 ID

    ID 只能包含数字、字母、连字符和下划线。

  4. 区域下拉列表中,选择一个 Dataform 区域 用于存储代码库及其内容。选择 Dataform 离您最近的区域。

    如需查看可用 Dataform 区域的列表,请参阅 地理位置。代码库区域没有 来匹配 BigQuery 数据集的位置。

    workflow_settings.yaml 文件中,您可以设置处理区域,其中 Dataform 会处理您的代码并存储执行结果。 处理区域必须与 BigQuery 的位置一致 数据集,但不需要与代码库区域匹配。 如需了解详情,请参阅 配置 Dataform 设置

  5. 服务账号下拉菜单中,选择一个服务账号 代码库

    在下拉菜单中,您可以选择默认的 Dataform 服务账号 或任何与您拥有的 Google Cloud 项目关联的服务账号 访问权限。请注意,自定义服务账号仅使用 执行工作流。所有其他代码库操作仍然会执行 默认启用 Dataform 服务账号

    1. 可选:如需选择下拉菜单中未显示的服务账号,请执行以下操作: 点击手动输入并输入服务账号 ID。
  6. 加密部分中,为代码库选择加密方法。

    1. 如需使用默认加密,请执行以下操作: 选择 Google 管理的加密密钥选项。
    2. 如需使用 CMEK,请选择客户管理的加密密钥 (CMEK) 选项。

      1. 选择客户管理的密钥下拉列表中, 为代码库选择 CMEK 密钥。

    如需了解详情,请参阅 Dataform CMEK 限制

  7. 点击创建,然后点击完成

修改服务账号

您可以将自定义服务账号与 Dataform 相关联 用于执行工作流的代码库所有其他代码库操作 仍然由默认的 Dataform 服务账号执行。

如需修改 Dataform 代码库的服务账号,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 Dataform 页面。

    转到 Dataform

  2. 选择一个代码库,然后点击设置

  3. 服务账号字段,点击 修改服务账号

  4. 服务账号下拉菜单中,选择一个服务账号 代码库

    在下拉菜单中,您可以选择默认的 Dataform 服务账号 或任何与您拥有的 Google Cloud 项目关联的服务账号 访问权限。

    1. 可选:如需选择下拉菜单中未显示的服务账号,请执行以下操作: 点击手动输入并输入服务账号 ID。
  5. 点击保存

删除代码库

如需删除代码库及其所有内容,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 Dataform 页面。

    转到 Dataform

  2. 在要删除的代码库旁边,点击 更多菜单,然后选择删除

  3. 删除代码库窗口中,输入代码库的名称以确认删除。

  4. 点击删除

后续步骤