代管式迁移简介

代管式迁移是一种自动化功能,可帮助您从 迁移到 Dataproc Metastore 服务,而无需 任何较长的停机时间(也称为“标记日”)。

代管式迁移架构

下图提供了代管式计算服务的概要架构 迁移。

Dataproc Metastore 托管迁移

代管式迁移流程

为了完成代管式迁移,您的服务会运行两次迁移 流程 - 开始迁移完成迁移。 您可以随时通过取消迁移流程取消迁移。 你还可以运行多种操作命令 完成迁移所需的资源例如,列表迁移删除 迁移

在您的服务通过此过程的过程中,它也会在不同 迁移状态迁移阶段。这些状态和阶段代表 后台发生的一些进程例如,MIGRATING 状态表示您的服务正在从 Cloud SQL 数据库复制到 Dataproc Metastore。

开始迁移

  • Dataproc Metastore 将与您的 专用 IP Cloud SQL 实例。建立连接后 Dataproc Metastore 直接使用 Cloud SQL 实例, Hive Metastore (HMS) 后端数据库。它仍然是 在迁移过程中确保数据的真实性元数据读写仍然 不会出现在 Cloud SQL 中。

  • 变更数据捕获 (CDC) 流水线启动。此流水线保留了 项目中的 Cloud SQL 实例和 Dataproc Metastore 托管项目已同步。这意味着 捕获 Cloud SQL 实例中对 HMS 数据库的所有更改 通过 Datastream 将数据写入 Dataproc Metastore Spanner 数据库。

成功启动迁移流程后,您就可以开始转送 将数据工作负载迁移到 Dataproc Metastore。目前,Cloud SQL 仍是数据的可靠来源。

完成迁移

将工作负载迁移到 Dataproc Metastore 后, 才能够完成迁移当调用完整迁移过程时, 会发生以下情况:

  • Dataproc Metastore 将转换为只读模式, 完整迁移流程即告完成。
  • CDC 流会将所有运行中的数据转移到 Dataproc Metastore。
  • Dataproc Metastore 连接到 Spanner 并断开连接 Cloud SQL。Dataproc Metastore 现在充当 HMS 数据的真实情况。

代理和流水线注意事项

代理

Dataproc Metastore 使用 Cloud SQL Auth 代理 链接到 SOCKS5 代理,以连接到您的专用 IP Cloud SQL 实例。 SOCKS5 代理服务器通过服务连接公开,如下所示 如之前的架构图所示。

  • 每次迁移都需要专用的 NAT 子网。这是因为 一个 NAT 子网最多只能有一个服务连接。

  • 为避免跨区域延迟问题,请提供 此区域来托管 SOCKS5 代理。例如,proxy_subnetnat_subnet

变更数据捕获流水线

变更数据捕获流水线使用 VPC 对等互连来建立连接 Datastream 与专用 IP Cloud SQL 之间的连接

  • 对于每次迁移,系统都会创建一个新的专用连接,并创建一个新的专用连接, 对等连接。

  • 托管 Cloud SQL 实例的 VPC 网络 对等连接,因为有活跃迁移。请确保您的 VPC 网络有能力托管所有必要的对等互连连接。

后续步骤