编排数据准备
本文档介绍了如何编排数据准备流水线,包括如何执行手动运行和安排定期运行。
数据准备由 Dataform 提供支持。
数据准备流程使用自定义 Dataform 服务账号运行,您可以在配置时间表或测试运行时选择该账号。如需了解详情,请参阅 Dataform 中的服务账号简介。
系统不会自动保存您对数据准备步骤所做的更改。您必须先保存并部署更改,然后才能按计划执行更改。时间表始终会运行数据准备作业的最新部署版本,并排除您可能正在开发的任何未部署的更改。
准备工作
开始之前,请先创建数据准备流程。
所需的角色
如需运行数据准备作业,您必须向计划用于执行数据准备作业的服务账号授予相应角色。如需了解详情,请参阅必需的角色。
制定数据准备
在开发数据准备流程时,您可以在将更改部署到生产环境之前手动运行步骤并检查输出。您可以在数据上测试您正在开发的当前版本,而 BigQuery 会继续按时间表运行最新部署的版本。在执行运行作业之前,您必须配置目标位置并修正所有验证错误。
在开发环境中手动运行数据准备
如需测试数据准备步骤并验证目标表中的结果,请通过数据准备编辑器手动运行数据准备:
在 Google Cloud 控制台中,前往 BigQuery 页面。
在浏览器窗格中,展开您的项目和数据准备文件夹。点击要运行的数据准备的名称。
为运行作业配置服务账号权限:
- 在数据准备编辑器工具栏中,将指针悬停在已停用的 Run 选项上。
- 在显示有关配置服务账号的信息的对话框中,点击配置。
- 在服务账号设置对话框中,选择一个服务账号。
- 如果服务账号需要其他权限,请点击全部授予,为其授予所需的角色。
- 点击保存。
可选:如需更新服务账号以供日后运行,请前往数据准备编辑器工具栏,依次点击更多 > 配置“立即运行”体验,然后更新并保存服务账号设置。
修正显示的所有验证错误。
在数据准备编辑器工具栏中,点击运行。
在立即运行对话框中,点击确认,确认此手动运行会将数据写入目标表,您也可以将该表用于安排的运行。
然后,运行作业会执行您的步骤并将输出加载到目标位置。
可选:运行完成后,您可以在执行窗格中查看有关执行的详细信息。
部署数据准备
如需为数据准备作业的某个版本安排运行作业,您必须先部署该版本。时间表会运行最新部署的版本。
如需部署数据准备流程,请按以下步骤操作:
在 Google Cloud 控制台中,前往 BigQuery 页面。
在浏览器窗格中,展开您的项目和数据准备文件夹。点击所选数据准备的名称。
系统随即会打开数据准备编辑器。
在数据准备编辑器工具栏中,点击部署。
创建时间表
如需创建一个时间表来执行已部署的数据准备步骤并将准备好的数据加载到目标表中,请安排数据准备作业运行。如需安排运行作业,您必须配置目标位置,并修正所有验证错误。
如需创建时间表,请按以下步骤操作:
在 Google Cloud 控制台中,前往 BigQuery 页面。
在浏览器窗格中,展开您的项目和数据准备文件夹。点击您要安排的数据准备的名称。
在数据准备编辑器工具栏中,点击安排。
输入时间表名称。
输入与执行作业关联的服务账号名称。
设置频率。
点击创建时间表。
手动运行已安排的数据准备
当您在所选时间表中手动运行数据准备作业时,BigQuery 会独立于时间表执行一次数据准备作业。
如需手动运行已安排的数据准备作业,请按以下步骤操作:
在 Google Cloud 控制台中,前往Scheduling 页面。
点击所选数据准备时间表的名称。
在时间表详情页面上,点击运行。
查看日程
您可以在数据准备编辑器或安排页面查看数据准备时间表。
数据准备编辑器
如需查看数据准备作业的时间表,请按以下步骤操作:
- 在数据准备编辑器工具栏中,依次点击时间表 查看时间表。
- 可选:如需查看时间表历史记录,请点击查看过往的执行情况。
“安排”页面
如需查看项目中的所有数据准备时间表,请按以下步骤操作:
在 Google Cloud 控制台中,前往Scheduling 页面。
可选:如需查看所选时间表的运行历史记录和详细信息,请点击相应时间表的名称。不会显示手动运行作业的记录。
修改时间表
您可以在数据准备编辑器或安排时间页面中修改时间表。
数据准备编辑器
如需修改时间表,请按以下步骤操作:
- 在数据准备编辑器工具栏中,依次点击时间表 查看时间表。
- 在安排数据准备对话框中,点击修改,然后更新时间表。
- 点击更新时间表。
“安排”页面
如需修改时间表,请按以下步骤操作:
在 Google Cloud 控制台中,前往Scheduling 页面。
点击所选数据准备时间表的名称。
在时间表详情页面上,点击修改。
点击查看时间表。
在安排数据准备对话框中,点击修改,然后更新时间表。
点击更新时间表。
删除时间表
如需永久删除所选数据准备作业的时间表,请按以下步骤操作:
在 Google Cloud 控制台中,前往Scheduling 页面。
在包含时间表的行中,依次点击 more_vert 操作 > 删除。