将 CDC 表迁移到其他区域

本页面介绍了以下用例的最佳实践:您已将 Datastream 复制到 BigQuery,但在不正确的区域配置了目标数据集。然后,您需要将数据集移动到其他区域(或多区域),而无需将源数据库中的所有数据重新同步到 BigQuery。

准备工作

在开始将数据迁移到其他区域之前,请考虑以下事项:

  • 迁移需要一些时间,并且您必须在操作期间暂停数据流。为了保持数据完整性,源数据库必须在数据流暂停时保留更改日志。如需估算暂停数据流的时间,请将数据集中 max_staleness 的值与运行时间最长的合并操作组合在一起:
    • 如需了解完成合并操作可能需要多长时间,请参阅建议的表 max_staleness
    • 如需在数据集中查找最大 max_staleness,请参阅确定表的当前 max_staleness,并根据具体需求调整查询。
    • 如果估算的暂停时间过长,源数据库不支持,您可能需要考虑暂时降低数据集中表的 max_staleness 值。
  • 验证执行迁移的用户在目标区域(查询预留和后台预留)是否有足够的 BigQuery 资源。如需详细了解预留,请参阅预留分配
  • 验证执行迁移的用户是否具有足够的权限来执行此操作,例如 Identity and Access Management (IAM) 控件或 VPC Service Controls

迁移步骤

如需启动数据集迁移,请使用 BigQuery 数据复制功能:

  1. 在 Google Cloud 控制台中,转到 BigQuery Studio 页面。

    转到 BigQuery Studio

  2. 在新区域中创建 BigQuery 数据集副本:

    ALTER SCHEMA DATASET_NAME
    ADD REPLICA 'NEW_REGION'
    OPTIONS(location='NEW_REGION');
    

    替换以下内容:

    • DATASET_NAME:您要创建的数据集的名称。
    • NEW_REGION:要在其中创建数据集的区域的名称。例如 region-us
  3. 监控迁移进度,并等待副本中的副本水印与主实例之间的距离不超过几分钟。您可以在 BigQuery INFORMATION_SCHEMA 上运行此查询,以检查迁移进度:

    SELECT
    catalog_name as project_id,
    schema_name as dataset_name,
    replication_time as dataset_replica_staleness
    FROM
    'NEW_REGION'.INFORMATION_SCHEMA.SCHEMATA_REPLICAS
    WHERE
    catalog_name = PROJECT_ID
    AND schema_name = DATASET_NAME
    AND location = NEW_REGION;
    

    替换以下内容:

    • PROJECT_ID:您的 Google Cloud 项目的 ID。
    • DATASET_NAME:您的数据集的名称。
    • DATASET_REPLICA_STALENESS:您创建的数据集副本中表的过时配置。
    • NEW_REGION:创建了数据集的区域。
  4. 暂停现有的 Datastream 数据流。如需了解详情,请参阅暂停数据流

  5. 等待数据流排空,并记下数据流进入 PAUSED 状态的时间。

  6. 查看 BigQuery 表的 upsert_stream_apply_watermark,确认最新的 CDC 更改已应用于该表。运行以下查询,并确保水印时间戳晚于数据流暂停的时间:10 分钟:

    SELECT table_name, upsert_stream_apply_watermark
    FROM DATASET_NAME.INFORMATION_SCHEMA.TABLES
    

    如需仅针对特定表运行查询,请添加以下 WHERE 子句:

    WHERE table_name = 'TABLE_NAME'
    

    替换以下内容:

    • DATASET_NAME:您的数据集的名称。
    • TABLE_NAME:可选。要为其检查 upsert_stream_apply_watermark 的表。
  7. 使用第 3 步中的查询来验证新的区域副本水印是否晚于第 6 步捕获的 upsert_stream_apply_watermark

  8. (可选)手动比较原始区域中主数据集中的多个表与新区域中的副本,以验证是否已正确复制所有数据。

  9. 通过在 BigQuery Studio 中运行以下命令来提升 BigQuery 数据集副本:

    ALTER SCHEMA DATASET_NAME
    SET OPTIONS(primary_replica = 'NEW_REGION');
    

    替换以下内容:

    • DATASET_NAME:您的数据集的名称。
    • NEW_REGION:创建了数据集的区域。
  10. (可选)如果您不再需要原始数据集(现在是副本),并且不希望产生额外费用,请转到 BigQuery Studio 并删除原始 BigQuery 数据集:

    ALTER SCHEMA DATASET_NAME DROP REPLICA IF EXISTS ORIGINAL_REGION;
    

    替换以下内容:

    • DATASET_NAME:原始数据集的名称。
    • ORIGINAL_REGION:原始数据集的区域。
  11. 创建具有相同配置但使用新的 BigQuery 目标位置的新数据流。

  12. 开始新的直播。

    为防止复制重复的事件,请从特定位置启动数据流:

    • 对于 MySQL 和 Oracle 来源:您可以通过检查原始流的日志并找到该数据流成功读取的最新位置来确定日志位置。如需了解如何从特定位置启动数据流,请参阅管理数据流
    • 对于 PostgreSQL 来源:新数据流开始从复制槽中的第一个日志序列号 (LSN) 读取更改。由于原始数据流可能已处理其中一些更改,因此请手动将复制槽的指针更改为 Datastream 从中读取数据的最后一个 LSN。您可以在 Datastream 使用方日志中找到此 LSN。
  13. (可选)删除原始信息流。