部署复制作业后,您将无法修改作业或向其中添加表。应将表添加到新的或重复的复制作业中。
须知事项
- 若要使用这些解决方法,您需要一个包含复制作业的 Cloud Data Fusion 实例。如需设置复制功能,请参阅复制功能使用入门。
方法 1:创建新的复制作业
向新作业中添加表是最简单的方法。它可防止历史重新加载所有表,并防止数据不一致问题。
缺点是管理多个快照作业会增加开销,并且消耗的计算资源较多,因为每个作业默认在单独的临时 Dataproc 集群上运行。通过在两个作业中使用共享的静态 Dataproc 集群,可以在一定程度上缓解后一种限制。
如需详细了解如何创建新作业,请参阅复制教程。
如需详细了解如何在 Cloud Data Fusion 中使用静态 Dataproc 集群,请参阅对现有 Dataproc 集群运行流水线。
方法 2:停止当前复制作业并创建副本
如果您复制复制作业以添加表,请考虑以下事项:
为重复作业启用快照会导致系统从头开始加载所有表。如果您无法使用上一个选项来运行单独的作业,建议您选择此选项。
停用快照以防止历史负载会导致数据丢失,因为从旧流水线到新流水线启动之间可能会丢失事件。我们不建议您创建重叠来缓解此问题,因为这样做还可能导致数据丢失 - 系统不会复制新表的历史数据。
如需创建复制作业,请按以下步骤操作:
停止现有流水线。
在“复制作业”页面中,找到要复制的作业,然后点击
和复制。启用快照:
- 转到配置来源。
- 在复制现有数据字段中,选择是。
在选择表和转换窗口中添加表,然后按照向导部署复制流水线。
后续步骤
- 详细了解复制。