向复制作业添加表

部署复制作业后,您便无法修改或添加表 。请改为将这些表添加到新的或重复的复制作业。

方法 1:创建新的复制作业

向新作业添加表是最简单的方法。它可以防止重新加载所有表的历史数据,并防止出现数据不一致问题。

缺点是,管理多个复制作业的开销会增加,并且会消耗更多计算资源,因为每个作业默认在单独的临时 Dataproc 集群上运行。后者可以在一定程度上缓解,方法是使用共享静态 Dataproc 集群创建两个作业。

如需详细了解如何创建新作业,请参阅 复制教程

如需详细了解如何在 Cloud Data Fusion 中使用静态 Dataproc 集群,请参阅针对现有 Dataproc 集群运行流水线

方案 2:停止当前复制作业并创建副本

如果您通过复制复制作业来添加表,请考虑使用 以下:

  • 为复制作业启用快照会导致 从零开始创建所有表如果您无法使用之前的选项(即运行单独的作业),建议您使用此方法。

  • 停用快照以防止历史负载会导致数据 因为在旧流水线停止与当前流水线之间可能会错过 新活动就会开始通过创建重叠设置来缓解这一问题 因为这也会导致数据丢失,即新 而不会复制表

如需创建重复的复制作业,请按以下步骤操作:

  1. 停止现有流水线。

  2. 在“复制作业”页面中,找到您要复制的作业, 点击“”并 复制

  3. 启用快照:

    1. 前往配置来源
    2. 复制现有数据字段中,选择
  4. 选择表和转换窗口中添加表,然后按照 向导来部署复制流水线。

后续步骤