复制

借助 Cloud Data Fusion Replication,您可以连续、实时地将数据从 SQL Server 和 MySQL 等运维数据存储区复制到 BigQuery 中。

如需使用复制功能,请选择以下方法之一:

  • 创建 Cloud Data Fusion 的新实例并添加复制应用。
  • 将复制应用添加到现有实例。

请参阅 MySQLSQL ServerOracle 的教程。

演示项目具有以下优势:

  • ETL 开发者和数据分析师设置复制作业的简单接口。

  • 在开始复制之前,可以帮助您识别架构不兼容性、连接问题和缺少的功能,然后提供纠正措施。

  • 您可以实时使用最新操作数据在 BigQuery 中进行分析。使用基于日志的复制功能,可以将数据从 Microsoft SQL Server(使用 SQL Server CDC)和 MySQL(使用 MySQL 二进制日志)直接复制到 BigQuery 中。

  • 变更数据捕获 (CDC) 提供了一种数据流中已更改数据的表示法,让计算和处理能够专注于最近更改的记录。这样可以最大限度地减少敏感生产系统的出站数据费用。

  • 支持大规模事务型数据库的企业级可伸缩性支持数据到 BigQuery 的初始加载,并且快照复制无需停机,从而使数据仓库准备好持续使用更改。初始快照创建完成后,系统会实时开始高吞吐量地连续复制更改。

  • 信息中心可帮助您实时了解复制性能。它有助于识别瓶颈和监控数据传输服务等级协议 (SLA)。

  • 包含对数据驻留、CMEK(客户管理的加密密钥)和 VPC Service Controls 的支持。通过将 Cloud Data Fusion 在 Google Cloud 中集成,可确保最高级别的企业安全性和隐私性,同时将最新数据存入您的数据仓库以进行分析。

复制运行时,您需要为 Dataproc 集群付费,同时会产生 BigQuery 的处理费用。为了优化这些费用,我们强烈建议您使用 BigQuery 统一费率价格

如需了解详情,请参阅 Cloud Data Fusion 价格页面。

复制实体

实体 说明
复制 复制是 Cloud Data Fusion 的一项功能,它能够以低延迟将数据从运营数据存储区连续复制到分析数据仓库。使用可选转换配置来源和目标,以创建复制作业。
来源 读取数据库、表或列更改事件,并使其可在复制作业中进一步处理。复制作业包含一个来源,该来源依赖变更捕获解决方案来提供更改。一个数据库可以有多个来源,每个来源具有不同的变更捕获解决方案。源代码是使用 CDAP 的插件架构构建的可插入模块。如果来源无法满足您的需求,您可以通过实现源接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。
目标 将从来源接收的更改写入目标数据库中。复制作业包含一个目标。 目标是使用 CDAP 的插件架构构建的可插入模块。如果目标无法满足您的需求,您可以通过实现目标接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。
来源属性 配置来源,包括连接详细信息、源数据库和表名称、凭据以及其他属性。
目标属性 配置目标,包括连接详细信息、目标数据库和表名称、凭据以及其他属性。
复制作业属性 配置复制作业,包括失败阈值、暂存区域、通知和验证设置。
草稿 一个已保存部分完成的复制作业。完成复制作业定义后,即可启动该作业。
事件 在来源中更改目标,以便复制到目标。事件包括插入、更新、删除和 DDL(数据定义语言)更改。
插入 在来源中添加新记录。
更新 更新来源中的现有记录。
删除 移除来源中的现有记录。
DDL 更改 包含架构更改(例如,数据类型或名称的更改)的事件。
日志 复制作业的操作日志。
复制作业详情 包含复制作业信息(例如当前状态、操作指标、随时间变化的历史视图、验证结果及其配置)的详情页面。
信息中心 一个页面,其中列出了所有变更数据捕获活动(包括吞吐量、延迟时间、失败率和验证结果)的状态。

操作

操作 说明
部署 按照网页界面流程指定来源、目标及其配置,创建新的复制作业。
保存 正在保存部分创建的复制作业,以便稍后继续创建。
删除 删除现有复制作业。只能删除已停止的流水线。
开始 正在启动复制作业。如果有要处理的更改,复制作业会进入“活跃”状态;否则,它会进入“等待”状态。
关停 停止复制作业。复制作业会停止处理来自来源的更改。
查看日志 查看复制作业的日志,以进行调试或其他分析。
搜索 按复制作业的名称、说明或其他复制作业元数据搜索复制作业。
评估 在开始复制之前先评估复制的影响。评估复制作业会生成评估报告,其中会标记架构不兼容和缺失的功能。

监控

复制器状态 说明
已部署 复制作业已部署,但尚未启动。在此状态下,复制作业不会复制事件。
正在启动 复制作业正在初始化,尚未准备好复制更改。
正在运行 复制作业已启动并正在复制更改。
正在关停 复制作业正在停止。
已关停 复制作业已停止。
失败 由于严重错误,复制作业失败。

表状态

概念 说明
快照 复制作业会在复制更改之前截取表的当前状态的快照。
正在复制 复制作业正在将源表中的更改复制到目标表中。
失败 由于出错,复制作业无法从源表复制更改。

指标

概念 说明
插入 在选定时间段内对目标应用的插入次数。
更新 在选定时间段内对目标应用的更新次数。
删除 在选定时间段内对目标应用的删除次数。
DDL 在选定时间段内对目标应用的 DDL 更改次数。
吞吐量 在选定时间段内复制到目标的事件数和字节数。
延迟时间 在选定时间段内数据复制到目标的延迟时间。

组件

组件 说明
服务 监督复制作业的端到端编排,并提供设计、部署、管理和监控复制作业的功能。该组件在 Cloud Data Fusion 租户项目中运行(租户项目对用户不可见)。其状态显示在 Cloud Data Fusion 网页界面的 **系统管理员** 页面上。
状态管理 该服务管理客户项目中 Cloud Storage 存储桶中每个复制作业的状态。您可在创建复制作业时配置该存储桶。它会存储每个复制作业的当前偏移量和复制状态。
执行 Dataproc 集群提供在您的项目中运行的复制作业的执行环境。复制作业使用 CDAP 工作器执行。执行环境的大小和特征通过 Compute Engine 配置文件进行配置。
源数据库 复制到目标数据库的生产运营数据库。此数据库可位于本地或 Google Cloud 上。Cloud Data Fusion Replication 支持 MySQL、Microsoft SQL Server 和 Oracle 源数据库。
变更跟踪解决方案 Cloud Data Fusion 依赖于更改跟踪解决方案来读取源数据库中的更改,而不是在源数据库上运行的代理上运行。该解决方案可以是源数据库的组件,也可以是单独许可的第三方解决方案。在后一种情况下,更改跟踪解决方案在本地运行、与源数据库在同一位置运行或在 Google Cloud 上运行。每个来源都必须与更改跟踪解决方案相关联。
  1. SQL Server
    • 支持的解决方案SQL Server CDC(更改跟踪表)
    • 其他软件:无
    • 许可/费用:不适用
    • 注释:可用的 SQL Server 2016 及更高版本
  2. MySQL
    • 支持的解决方案MySQL 二进制日志
    • 其他软件:无
    • 许可/费用:不适用
    • 注释:不适用
  3. Oracle
目标数据库 复制和分析的目标位置。Cloud Data Fusion 支持 BigQuery 目标数据库。
身份验证 身份验证机制因源数据库或更改跟踪软件而异。使用源数据库(如 SQL Server 和 MySQL)的内置功能时,系统使用数据库登录进行身份验证。使用变更跟踪软件时,需使用该软件的身份验证机制。

连接性

下表介绍了复制功能所需的网络连接及其使用的安全机制。

发件人 To 可选 协议 网络 身份验证安全性 目的
服务(租户项目) 源数据库 取决于复制来源。用于直接数据库连接的 JDBC。 对等互连 + 防火墙规则 + VPN/互连 + 路由器 数据库登录 在设计时而非执行时需要,时间函数:表列出、评估(可选步骤;在不执行这些步骤的情况下复制可继续进行)
服务(租户项目) Cloud Storage Cloud API VPC-SC IAM 状态管理:偏移、复制状态
Dataproc(您的项目) 源数据库 取决于来源。用于直接数据库连接的 JDBC。 对等互连 + 防火墙规则 + VPN/互连 + 路由器 数据库登录 在执行时需要,用于读取来源数据库中的更改以复制到目标
Dataproc(您的项目) Cloud Storage Cloud API VPC-SC IAM 状态管理:偏移、复制状态
Dataproc(您的项目) BigQuery Cloud API VPC-SC IAM 在执行时需要,用于将源数据库中的更改应用于目标

后续步骤