安排生产执行
本快速入门将引导您完成以下步骤,以在 Dataform 中安排生产执行:
- 创建 Dataform 代码库。
- 向 Dataform 授予对 BigQuery 的访问权限。
-
按照创建
production
编译结果的频率设置production
版本配置。 -
创建
production
工作流配置,选择production
版本配置,并设置执行production
编译结果的时间表。
须知事项
- 登录您的 Google Cloud 帐号。如果您是 Google Cloud 新手,请创建一个帐号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
启用 BigQuery and Dataform API。
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
启用 BigQuery and Dataform API。
Dataform 目前不支持 VPC Service Controls。如果您使用 VPC Service Controls,请从 VPC Service Controls 边界排除 BigQuery 资源以使用 Dataform。
所需的角色
如需获取执行本教程中的所有任务所需的权限,请让管理员授予您以下 IAM 角色:
-
代码库的 Dataform Admin (
roles/dataform.admin
) -
用于工作区和工作流调用的 Dataform Editor (
roles/dataform.editor
)
如需详细了解如何授予角色,请参阅管理访问权限。
创建 Dataform 代码库
在 Google Cloud 控制台中,转到 Dataform 页面。
点击
创建代码库。在创建代码库页面上,执行以下操作:
在代码库 ID 字段中,输入
quickstart-production
。在区域列表中,选择
europe-west4
。点击创建。
点击完成。
向 Dataform 授予对 BigQuery 的访问权限
如需在 BigQuery 中执行工作流,Dataform 服务帐号必须具有以下所需的角色:
- BigQuery Data Editor,用于 Dataform 需要读写权限的项目。它们通常包括托管 Dataform 代码库的项目。
- BigQuery Data Viewer(针对 Dataform 需要只读权限的项目)。
- 针对托管 Dataform 代码库的项目的 BigQuery Job User。
如需授予这些角色,请按以下步骤操作:
在 Google Cloud 控制台中,转到 IAM 页面。
点击添加。
在新的主帐号字段中,输入您的 Dataform 服务帐号 ID。
在选择角色下拉列表中,选择 BigQuery 作业用户角色。
点击添加其他角色,然后在选择角色下拉列表中,选择 BigQuery Data Editor 角色。
点击添加其他角色,然后在选择角色下拉列表中,选择 BigQuery Data Viewer 角色。
点击保存。
创建版本配置
如需创建 quickstart-production
代码库的生产编译结果,请按以下步骤操作:
在 Google Cloud 控制台中,转到 Dataform 页面。
点击
quickstart-production
(确认)。点击发布配置,然后点击新建配置。
在创建版本配置窗格中,配置以下设置:
在发布 ID 字段中,输入
production
。在 Git commitish 字段中,保留默认值
main
。在频率下拉菜单中,选择自定义。
在自定义时间表字段中,输入
0 16 * * *
。在时区下拉菜单中,选择 UTC+1 时区,例如格林尼治标准时间 (GMT)。
在每天下午 4 点 (UTC+1),Dataform 将编译
quickstart-production
代码库,并应用此版本配置中配置的编译设置,以创建production
编译结果。点击创建。
production
发布配置会在每天下午 4 点 (UTC+1) 创建整个 quickstart-production
代码库的编译结果。
创建工作流配置
如需安排 production
表的执行时间,请按以下步骤操作:
在 Google Cloud 控制台中,转到 Dataform 页面。
点击
quickstart-production
(确认)。点击工作流配置,然后点击新建工作流配置。
在创建工作流配置窗格的配置 ID 字段中,输入
production
。在版本配置下拉菜单中,选择
production
。在频率字段中,输入
0 17 * * *
。在时区下拉菜单中,选择 UTC+1 时区,例如格林尼治标准时间 (GMT)。
在每天下午 5 点 (UTC+1) 时,Dataform 将执行
quickstart-production
代码库的最新production
编译结果。为了确保 Dataform 在相应的发布配置中执行最新编译结果,请在编译结果创建时间与计划执行时间之间留出至少 1 小时的间隔。
点击所有操作。
Dataform 将执行
production
编译结果中的所有 SQL 工作流操作。点击创建。
production
工作流配置每天在下午 4 点 (UTC+1) 执行 production
发布配置创建的完整最新编译结果。
查看过去的 production
编译结果
如需查看过去排定的 production
编译结果,请按以下步骤操作:
在 Google Cloud 控制台中,转到 Dataform 页面。
点击
quickstart-production
(确认)。点击版本配置。
点击
production
(确认)。
查看过去 production
个工作流的执行情况
如需查看过去的 production
工作流执行情况,请按以下步骤操作:
在 Google Cloud 控制台中,转到 Dataform 页面。
点击
quickstart-production
(确认)。点击工作流程配置。
清理
为避免因本页中使用的资源导致您的 Google Cloud 帐号产生费用,请按照以下步骤操作。
删除在 BigQuery 中创建的数据集
为避免 BigQuery 资源产生费用,请按照以下步骤删除名为 dataform_production
的数据集:
在 Google Cloud 控制台中,转到 BigQuery 页面。
在探索器面板中,展开您的项目并选择
dataform_production
。点击
操作菜单,然后选择删除。
在删除数据集对话框中的文本框中输入
delete
,然后点击删除。
删除 Dataform 发布配置
创建 Dataform 版本配置不会产生任何相关费用。但是,如果您想要删除 production
版本配置,请按以下步骤操作:
在 Google Cloud 控制台中,转到 Dataform 页面。
点击
quickstart-production
(确认)。点击版本配置。
在
production
版本配置中,点击更多菜单,然后点击删除。
在删除版本配置弹出式窗口中,点击删除。
删除 Dataform 工作流配置
为避免 BigQuery 资源产生费用,请按照以下步骤删除 Dataform production
工作流配置:
在 Google Cloud 控制台中,转到 Dataform 页面。
点击
quickstart-production
(确认)。点击工作流程配置。
在
production
工作流配置中,点击更多菜单,然后点击删除。
在删除版本配置弹出式窗口中,点击删除。
删除 Dataform 代码库
创建 Dataform 代码库不会产生任何相关费用。但是,如果您想要删除代码库及其所有内容,请按以下步骤操作:
在 Google Cloud 控制台中,转到 Dataform 页面。
在
quickstart-production
之前,点击更多菜单,然后选择删除。
在删除代码库窗口中,输入代码库的名称以确认删除。
请点击删除来确认操作。
后续步骤
如需详细了解 Dataform 中的代码生命周期,请参阅 Dataform 中的代码生命周期简介。
如需详细了解 Dataform 中的代码生命周期,请参阅管理代码生命周期。
如需详细了解 Dataform 中的版本配置,请参阅创建版本配置。
如需详细了解 Dataform 中的工作流配置,请参阅使用工作流配置安排执行。