将表添加到复制作业

部署复制作业后,您将无法修改作业或向其中添加表。应将表添加到新的或重复的复制作业中。

须知事项

  • 若要使用这些解决方法,您需要一个包含复制作业的 Cloud Data Fusion 实例。如需设置复制功能,请参阅复制功能使用入门

方法 1:创建新的复制作业

向新作业中添加表是最简单的方法。它可防止历史重新加载所有表,并防止数据不一致问题。

缺点是管理多个快照作业会增加开销,并且消耗的计算资源较多,因为每个作业默认在单独的临时 Dataproc 集群上运行。通过在两个作业中使用共享的静态 Dataproc 集群,可以在一定程度上缓解后一种限制。

如需详细了解如何创建新作业,请参阅复制教程

如需详细了解如何在 Cloud Data Fusion 中使用静态 Dataproc 集群,请参阅对现有 Dataproc 集群运行流水线

方法 2:停止当前复制作业并创建副本

如果您复制复制作业以添加表,请考虑以下事项:

  • 为重复作业启用快照会导致系统从头开始加载所有表。如果您无法使用上一个选项来运行单独的作业,建议您选择此选项。

  • 停用快照以防止历史负载会导致数据丢失,因为从旧流水线到新流水线启动之间可能会丢失事件。我们不建议您创建重叠来缓解此问题,因为这样做还可能导致数据丢失 - 系统不会复制新表的历史数据。

如需创建复制作业,请按以下步骤操作:

  1. 停止现有流水线。

  2. 在“复制作业”页面中,找到要复制的作业,然后点击 复制

  3. 启用快照:

    1. 转到配置来源
    2. 复制现有数据字段中,选择
  4. 选择表和转换窗口中添加表,然后按照向导部署复制流水线。

后续步骤