复制

借助 Cloud Data Fusion Replication,您可以复制自己的数据 从运营数据存储区(如 SQL Server)中实时、持续地存储数据 导入到 BigQuery

如需使用复制功能,请选择以下方法之一:

  • 创建 Cloud Data Fusion 的新实例,并添加 复制应用。
  • 将复制应用添加到现有实例。

演示项目具有以下优势:

  • 识别架构不兼容性、连接问题和缺失 特征,然后提供纠正措施。

  • 实时使用最新的运营数据进行分析, BigQuery。使用基于日志的复制功能,可以将数据从 Microsoft SQL Server(使用 SQL Server CDC)和 MySQL(使用 MySQL 二进制日志)直接复制到 BigQuery 中。

  • 变更数据捕获 (CDC),提供已更改的数据 这样,计算和处理就能重点关注 最近更改的记录。这样可以最大限度地降低 敏感生产系统。

  • 企业级可伸缩性,支持大量事务型数据库 初始 支持将数据加载至 BigQuery,且停机时间为零 快照复制,使数据仓库准备好使用更改 。初始快照完成后,高吞吐量、连续 更改的复制开始实时。

  • 可帮助您实时了解复制性能的信息中心。 它对于识别瓶颈和监控数据传输服务等级协议 (SLA) 非常有用。

  • 包括对数据驻留、客户管理的加密密钥 (CMEK) 的支持 和 VPC Service Controls将 Cloud Data Fusion 集成到 Google Cloud 可确保实现最高级别的企业安全性和 同时在您的数据中提供最新数据的同时观察到隐私 用于分析的数据仓库

复制功能运行时,您需要支付 Dataproc 费用 集群,并且 BigQuery 会产生处理费用。为了优化这些费用,我们强烈建议您使用 BigQuery 统一费率价格

如需了解详情,请参阅 Cloud Data Fusion 价格页面。

复制实体

实体 说明
复制 复制是 Cloud Data Fusion 的一项功能 能够以低延迟连续复制数据 从运营数据存储区迁移到分析数据仓库。创建 来配置单个副本 源和目标的可选转换。
来源 读取数据库、表或列更改事件并将它们设为 以便在复制作业中进一步处理。答 复制作业包含 一个来源,该来源依靠变更捕获解决方案来提供 更改。一个数据库可以有多个来源,每个来源具有不同的变更捕获解决方案。源代码是使用插件构建的可插入模块 是 CDAP 的架构。如果来源无法满足您的需求,您可以通过实现源接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。
目标 将从来源接收的更改写入目标数据库中。一个复制作业包含一个目标。 目标是使用插件构建的可插入模块 是 CDAP 的架构。如果目标无法满足您的需求,您可以通过实现目标接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。
来源属性 配置来源,包括连接详细信息、源数据库和表名称、凭据以及其他属性。
目标属性 配置目标,包括连接详细信息、目标数据库和表名称、凭据以及其他属性。
复制作业属性 配置复制作业,包括失败阈值、 暂存区域、通知和验证设置。
草稿 已保存的部分完成的复制作业。当 复制作业定义已完成,可以启动了。
活动 在来源中更改目标,以便复制到目标。活动 包括插入、更新、删除和 DDL(数据定义语言) 更改。
插入 在来源中添加新记录。
更新 更新来源中的现有记录。
删除 移除来源中的现有记录。
DDL 更改 包含架构更改(例如,数据类型或名称的更改)的事件。
日志 复制作业的操作日志。
复制作业详情 包含复制作业信息(例如 当前状态, 运营指标, 随时间变化的历史视图, 验证 及其配置。
信息中心 一个页面,其中列出了所有变更数据捕获活动(包括吞吐量、延迟时间、失败率和验证结果)的状态。

操作

操作 说明
部署 按照网页界面创建新的复制作业 流程指定来源、目标及其配置。
保存 保存部分创建的复制作业以继续 创建过程
删除 删除现有复制作业。只能删除已停止的流水线。
开始 启动复制作业。如果需要更改 复制作业将进入“活跃”状态; 否则,会进入“waiting”状态。
停止 停止复制作业。复制作业 停止处理来源的更改。
查看日志 查看复制作业的日志以进行调试 或其他分析方法
搜索 按名称、说明、 或其他复制作业元数据。
评估 在开始复制之前先评估复制的影响。评估复制作业会生成评估报告, 标记架构不兼容性和缺少功能。

监控

复制器状态 说明
已部署 复制作业已部署,但尚未启动。 在此状态下,复制作业不会复制事件。
正在启动 复制作业正在初始化,而非 复制更改。
正在运行 复制作业已启动,正在复制 更改。
正在停止 复制作业正在停止。
已停止 复制作业已停止。
失败 由于严重错误,复制作业失败。

表状态

概念 说明
快照 复制作业正在截取当前内容的快照 表的状态。
复制 复制作业正在从来源复制更改 导出到目标表。
失败 复制作业无法从 存在错误。

指标

概念 说明
插入 在选定时间段内对目标应用的插入次数。
更新 在选定时间段内对目标应用的更新次数。
删除 在选定时间段内对目标应用的删除次数。
DDL 在选定时间段内对目标应用的 DDL 更改次数。
吞吐量 在选定时间段内复制到目标的事件数和字节数。
延迟时间 在选定时间段内数据复制到目标的延迟时间。

组件

组件 说明
服务 监督复制作业的端到端编排, 提供用于设计、部署、管理和 监控复制作业该组件在 Cloud Data Fusion 租户项目中运行(租户项目对用户不可见)。其状态显示在 Cloud Data Fusion 网页界面。
状态管理 该服务在一个集群中管理每个复制作业的状态, 客户项目中的 Cloud Storage 存储桶。存储桶可以是 在创建复制作业时配置的。它会存储 每个节点的当前偏移和复制状态 复制作业。
执行 Dataproc 集群提供 复制作业,这些作业在您的项目中运行。 复制作业使用 <ph type="x-smartling-placeholder"></ph> CDAP 工作器。执行的规模和特征 都配置了 Compute Engine 配置文件
源数据库 您的生产运营数据库,可复制到目标中 数据库。此数据库可位于本地或 Google Cloud 上。Cloud Data Fusion 复制功能支持 MySQL、Microsoft SQL Server 和 Oracle 源数据库。
变更跟踪解决方案 Cloud Data Fusion 依赖于更改跟踪解决方案来读取源数据库中的更改,而不是在源数据库上运行的代理上运行。该解决方案可以是源数据库的组件,也可以是单独许可的第三方解决方案。在后一种情况下,更改跟踪解决方案在本地运行、与源数据库在同一位置运行或在 Google Cloud 上运行。每个来源都必须与更改跟踪解决方案相关联。
  1. SQL Server
    • 支持的解决方案SQL Server CDC(更改跟踪表)
    • 其他软件:无
    • 许可/费用:不适用
    • 注释:可用的 SQL Server 2016 及更高版本
  2. MySQL
    • 支持的解决方案MySQL 二进制日志
    • 其他软件:无
    • 许可/费用:不适用
    • 注释:不适用
  3. Oracle
目标数据库 复制和分析的目标位置。Cloud Data Fusion 支持 BigQuery 目标数据库。
身份验证 身份验证机制因源数据库或更改跟踪软件而异。使用源数据库(如 SQL Server 和 MySQL)的内置功能时,系统使用数据库登录进行身份验证。在使用变更跟踪软件时, 使用的身份验证机制。

连接

下表介绍了复制功能所需的网络连接及其使用的安全机制。

发件人 To 可选 协议 网络 身份验证安全性 用途
服务(租户项目) 源数据库 取决于复制来源。用于直接数据库连接的 JDBC。 对等互连 + 防火墙规则 + VPN/互连 + 路由器 数据库登录 在设计时而非执行时需要,时间函数:表列出、评估(可选步骤;在不执行这些步骤的情况下复制可继续进行)
服务(租户项目) Cloud Storage Cloud API VPC-SC IAM 状态管理:偏移、复制状态
Dataproc(您的项目) 源数据库 取决于来源。用于直接数据库连接的 JDBC。 对等互连 + 防火墙规则 + VPN/互连 + 路由器 数据库登录 在执行时需要,用于读取来源数据库中的更改以复制到目标
Dataproc(您的项目) Cloud Storage Cloud API VPC-SC IAM 状态管理:偏移、复制状态
Dataproc(您的项目) BigQuery Cloud API VPC-SC IAM 在执行时需要,用于将源数据库中的更改应用于目标

后续步骤