本页介绍了在以下用例中的最佳实践:您已设置将 Datastream 数据复制到 BigQuery,但在错误的区域配置了目标数据集。然后,您想将数据集移至其他区域(或多区域),而无需将所有数据从源数据库重新同步到 BigQuery。
准备工作
在开始将数据迁移到其他区域之前,请考虑以下事项:
- 迁移需要时间,您必须在操作期间暂停直播。为保持数据完整性,在数据流暂停时,来源数据库必须保留更改日志。如需估算暂停数据流的时长,请将数据集中的
max_staleness
值与运行时间最长的合并操作相结合:- 如需了解合并操作可能需要多长时间才能完成,请参阅建议的表
max_staleness
值。 - 如需查找数据集中的最大
max_staleness
,请参阅确定表的当前max_staleness
值,并根据您的具体需求调整查询。 - 如果估算的暂停时间过长,超出了源数据库的支持范围,您不妨考虑暂时降低数据集中表的
max_staleness
值。
- 如需了解合并操作可能需要多长时间才能完成,请参阅建议的表
- 验证执行迁移的用户在目标区域是否有足够的 BigQuery 资源(查询预留和后台预留)。如需详细了解预留,请参阅预留分配。
- 请验证执行迁移的用户是否拥有执行此操作的足够权限,例如 Identity and Access Management (IAM) 控制功能或 VPC Service Controls。
迁移步骤
如需发起数据集迁移,请使用 BigQuery 数据复制:
在 Google Cloud 控制台中,转到 BigQuery Studio 页面。
在新区域中创建 BigQuery 数据集副本:
ALTER SCHEMA DATASET_NAME ADD REPLICA 'NEW_REGION' OPTIONS(location='NEW_REGION');
替换以下内容:
- DATASET_NAME:您要创建的数据集的名称。
- NEW_REGION:您要创建数据集所在区域的名称。例如
region-us
。
监控迁移进度,并等待副本中的副本水印与主副本相差几分钟。您可以在 BigQuery INFORMATION_SCHEMA 上运行以下查询,以检查迁移进度:
SELECT catalog_name as project_id, schema_name as dataset_name, replication_time as dataset_replica_staleness FROM 'NEW_REGION'.INFORMATION_SCHEMA.SCHEMATA_REPLICAS WHERE catalog_name = PROJECT_ID AND schema_name = DATASET_NAME AND location = NEW_REGION;
替换以下内容:
- PROJECT_ID:您的 Google Cloud 项目的 ID。
- DATASET_NAME:您的数据集的名称。
- DATASET_REPLICA_STALENESS:您创建的数据集副本中表的过时配置。
- NEW_REGION:您创建数据集时所在的区域。
暂停现有 Datastream 数据流。如需了解详情,请参阅暂停数据流。
等待数据流排空,并记下数据流进入
PAUSED
状态的时间。检查表的
upsert_stream_apply_watermark
,确认最新的 CDC 更改已应用到 BigQuery 表。运行以下查询,并确保水印时间戳比直播暂停时的时间晚 10 分钟:SELECT table_name, upsert_stream_apply_watermark FROM DATASET_NAME.INFORMATION_SCHEMA.TABLES
如需仅针对特定表运行查询,请添加以下
WHERE
子句:WHERE table_name = 'TABLE_NAME'
替换以下内容:
- DATASET_NAME:您的数据集的名称。
- TABLE_NAME:可选。您要检查
upsert_stream_apply_watermark
的表。
使用第 3 步中的查询验证新区域副本水印的时间晚于第 6 步中捕获的
upsert_stream_apply_watermark
。(可选)手动将原始区域中主数据集中的几个表与新区域中的副本进行比较,以验证是否已正确复制所有数据。
在 BigQuery Studio 中运行以下命令,以提升 BigQuery 数据集副本的级别:
ALTER SCHEMA DATASET_NAME SET OPTIONS(primary_replica = 'NEW_REGION');
替换以下内容:
- DATASET_NAME:您的数据集的名称。
- NEW_REGION:您创建数据集时所在的区域。
(可选)如果您不再需要原始数据集(现在是副本),并且不想产生额外费用,请前往 BigQuery Studio 并删除原始 BigQuery 数据集:
ALTER SCHEMA DATASET_NAME DROP REPLICA IF EXISTS ORIGINAL_REGION;
替换以下内容:
- DATASET_NAME:原始数据集的名称。
- ORIGINAL_REGION:原始数据集所在的区域。
创建一个配置完全相同但具有新 BigQuery 目标位置的新数据流。
开始新的直播。
为防止复制重复事件,请从特定位置开始流式传输:
- 对于 MySQL 和 Oracle 来源:您可以通过检查原始数据流的日志并找到数据流成功读取的上一个位置,来确定日志位置。如需了解如何从特定位置开始直播,请参阅管理直播。
- 对于 PostgreSQL 来源:新数据流会从复制槽中的第一个日志序列号 (LSN) 开始读取更改。由于原始数据流可能已处理其中的部分更改,因此请手动将复制槽的指针更改为 Datastream 上次读取的 LSN。您可以在 Datastream 使用方日志中找到此 LSN。
(可选)删除原始数据流。