部署复制作业后,您将无法修改或向其添加表。请改为将表添加到新的或重复的复制作业中。
方法 1:创建新的复制作业
向新作业添加表是最简单的方法。这样可以防止重新加载所有表的历史数据,并防止出现数据不一致问题。
缺点是,管理多个复制作业的开销会增加,并且会消耗更多计算资源,因为每个作业默认在单独的临时 Dataproc 集群上运行。通过为这两个作业使用共享静态 Dataproc 集群,可以一定程度地缓解后一种情况。
如需详细了解如何创建新作业,请参阅复制教程。
如需详细了解如何在 Cloud Data Fusion 中使用静态 Dataproc 集群,请参阅针对现有 Dataproc 集群运行流水线
方案 2:停止当前复制作业并创建副本
如果您复制复制作业以添加表,请考虑以下事项:
为重复作业启用快照会导致从头开始加载所有表的历史数据。如果您无法使用之前的选项(即运行单独的作业),建议您使用此方法。
停用快照以防止加载历史数据可能会导致数据丢失,因为在旧数据流停止和新数据流启动之间可能会错过事件。不建议创建重叠时间段来缓解此问题,因为这也可能会导致数据丢失,因为系统不会复制新表的历史数据。
如需创建重复的复制作业,请按以下步骤操作:
停止现有流水线。
在“复制作业”页面中,找到要复制的作业,然后依次点击
和复制。启用快照:
- 前往配置来源。
- 在复制现有数据字段中,选择是。
在选择表和转换窗口中添加表,然后按照向导中的说明部署复制流水线。
后续步骤
- 详细了解复制。