向复制作业添加表

部署复制作业后,您便无法修改或添加表 。请改为将这些表添加到新的或重复的复制作业。

方法 1:创建新的复制作业

向新作业添加表是最简单的方法。它可以防止 重新加载所有表,防止数据不一致问题。

但其缺点是管理多个 复制作业和更多计算资源的消耗, 每个作业在单独的临时 Dataproc 集群上运行 默认值。通过为这两个作业使用共享静态 Dataproc 集群,可以一定程度地缓解后一种情况。

如需详细了解如何创建新作业,请参阅 复制教程

如需详细了解如何在以下位置使用静态 Dataproc 集群: Cloud Data Fusion,请参阅 针对现有 Dataproc 集群运行流水线

方案 2:停止当前复制作业并创建副本

如果您复制复制作业以添加表,请考虑以下事项:

  • 为重复作业启用快照会导致从头开始加载所有表的历史数据。如果您无法使用 即运行不同的作业。

  • 停用快照以防止历史负载会导致数据 因为在旧流水线停止与当前流水线之间可能会错过 新活动就会开始通过创建重叠设置来缓解这一问题 因为这也会导致数据丢失,即新 而不会复制表

如需创建重复的复制作业,请按以下步骤操作:

  1. 停止现有流水线。

  2. 在“复制作业”页面中,找到要复制的作业,然后依次点击 复制

  3. 启用快照:

    1. 前往配置来源
    2. 复制现有数据字段中,选择
  4. 选择表和转换窗口中添加表,然后按照向导中的说明部署复制流水线。

后续步骤