复制

借助 Cloud Data Fusion 复制功能,您可以将数据从操作数据存储区(如 SQL Server 和 MySQL)持续且实时地复制到 BigQuery 中。

如需使用复制功能,您可以创建一个新的 Cloud Data Fusion 实例并添加复制应用,也可以将复制应用添加到现有实例中。请参阅 MySQLSQL ServerOracle 教程。

演示项目具有以下优势:

  • 一个供 ETL 开发者和数据分析师设置复制作业的简单界面。

  • 在开始复制之前,可以帮助您识别架构不兼容性、连接问题和缺少的功能,然后提供纠正措施。

  • 您可以实时使用最新操作数据在 BigQuery 中进行分析。使用基于日志的复制功能,可以将数据从 Microsoft SQL Server(使用 SQL Server CDC)和 MySQL(使用 MySQL 二进制日志)直接复制到 BigQuery 中。

  • 变更数据捕获 (CDC) 提供了一种数据流中已更改的数据的表示形式,使计算和处理操作主要侧重于最近更改的记录,从而最大程度减少敏感生产系统的出站流量收费。

  • 支持大规模事务型数据库的企业级可伸缩性支持数据到 BigQuery 的初始加载,并且快照复制无需停机,从而使数据仓库准备好持续使用更改。完成初始快照后,高吞吐量的持续复制更改会实时启动。在公开预览版阶段,该功能最多可支持每小时 50 GB 的事务。

  • 信息中心可帮助您实时了解复制性能。这有助于确定瓶颈并监控数据传输服务等级协议 (SLA)。

  • 包含对数据驻留、CMEK(客户管理的加密密钥)和 VPC Service Controls 的支持。Cloud Data Fusion 在 Google Cloud 中集成可确保遵循最高级别的企业级安全与隐私权,同时使数据仓库为您提供最新数据进行分析。

复制功能运行时,您需要为 Dataproc 集群付费,并且会对 BigQuery 产生处理费用。为了优化这些费用,我们强烈建议您使用 BigQuery 统一费率价格

如需了解详情,请参阅 Cloud Data Fusion 价格页面。

复制实体

实体 说明
复制 复制是 Cloud Data Fusion 的一项功能,能够以低延迟方式将数据从操作数据存储区复制到分析数据仓库中。可通过配置具有可选转换的来源和目标来创建复制作业。
来源 读取数据库、表或列更改事件,并使这些事件可用于在复制作业中进行进一步处理。复制作业包含一个来源,它依赖于变更捕获解决方案来提供更改。一个数据库可以有多个来源,每个来源具有不同的变更捕获解决方案。来源是使用 CDAP 的插件架构构建的可插入式模块。如果来源无法满足您的需求,您可以通过实现源接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。
目标 将从来源接收的更改写入目标数据库中。复制作业包含一个目标。目标是使用 CDAP 的插件架构构建的可插入式模块。如果目标无法满足您的需求,您可以通过实现目标接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。
来源属性 配置来源,包括连接详细信息、源数据库和表名称、凭据以及其他属性。
目标属性 配置目标,包括连接详细信息、目标数据库和表名称、凭据以及其他属性。
复制作业属性 配置复制作业,包括失败阈值、暂存区、通知和验证设置。
草稿 已保存、部分完成的复制作业。复制作业定义完成后即可启动。
活动 在来源中更改目标,以便复制到目标。事件包括插入、更新、删除和 DDL(数据定义语言)更改。
插入 在来源中添加新记录。
更新 更新来源中的现有记录。
删除 移除来源中的现有记录。
DDL 更改 包含架构更改(例如,数据类型或名称的更改)的事件。
日志 复制作业的操作日志。
复制作业详情 包含复制作业信息(例如,当前状态、操作指标、一段时间内的历史视图、验证结果及其配置)的详情页面。
信息中心 一个页面,其中列出了所有变更数据捕获活动(包括吞吐量、延迟时间、失败率和验证结果)的状态。

操作

操作 说明
部署 按照界面流程指定来源、目标及其配置来创建新复制作业。
保存 保存部分创建的复制作业,以便稍后继续创建。
删除 删除现有复制作业。只能删除已停止的流水线。
开始 启动复制作业。如果有要处理的更改,复制作业将进入活跃状态;否则,它将进入等待状态。
停止 停止复制作业。复制作业会停止处理来自来源的更改。
查看日志 查看复制作业的日志以进行调试或其他分析。
搜索 按名称、说明或其他复制作业元数据搜索复制作业。
评估 在开始复制之前先评估复制的影响。评估复制作业会生成一份评估报告,以对架构不兼容和缺失功能进行标记。

监控

复制器状态 说明
已部署 复制作业已部署,但未启动。在此状态下,复制作业不会复制事件。
正在启动 复制作业正在初始化,尚未准备好复制更改。
正在运行 复制作业已启动,正在复制更改。
已停止 复制作业已停止。
失败 由于出现严重错误,复制作业失败。

表状态

概念 说明
快照 复制作业正在截取复制更改之前的表的当前状态快照。
复制 复制作业正在将源表中的更改复制到目标表中。
失败 由于出错,复制作业无法从源表复制更改。

指标

概念 说明
插入 在选定时间段内对目标应用的插入次数。
更新 在选定时间段内对目标应用的更新次数。
删除 在选定时间段内对目标应用的删除次数。
DDL 在选定时间段内对目标应用的 DDL 更改次数。
吞吐量 在选定时间段内复制到目标的事件数和字节数。
延迟时间 在选定时间段内数据复制到目标的延迟时间。

组件

组件 说明
服务 监督复制作业的端到端编排,并提供设计、部署、管理和监控复制作业的功能。该组件在 Cloud Data Fusion 租户项目中运行(租户项目对用户不可见)。其状态显示在 Cloud Data Fusion 界面的“系统管理员”页面中。
状态管理 该服务管理客户项目的 Cloud Storage 存储桶中的每个复制作业的状态。创建复制作业后,您可以配置存储桶。该组件存储每个复制作业的当前偏移和复制状态。
执行 Dataproc 集群提供在项目中运行的复制作业的执行环境。复制作业使用 CDAP 工作器执行。执行环境的规模和特征使用 Compute Engine 配置文件进行配置。
源数据库 复制到目标数据库的生产操作数据库。此数据库可位于本地或 Google Cloud 上。Cloud Data Fusion 复制功能支持 MySQL、Microsoft SQL Server 和 Oracle 源数据库。
变更跟踪解决方案 Cloud Data Fusion 依赖于更改跟踪解决方案来读取源数据库中的更改,而不是在源数据库上运行的代理上运行。该解决方案可以是源数据库的组件,也可以是单独许可的第三方解决方案。在后一种情况下,更改跟踪解决方案在本地运行、与源数据库在同一位置运行或在 Google Cloud 上运行。每个来源都必须与更改跟踪解决方案相关联。
  1. SQL Server
    • 支持的解决方案SQL Server CDC(更改跟踪表)
    • 其他软件:无
    • 许可/费用:不适用
    • 注释:可用的 SQL Server 2016 及更高版本
  2. MySQL
    • 支持的解决方案MySQL 二进制日志
    • 其他软件:无
    • 许可/费用:不适用
    • 注释:不适用
  3. Oracle
目标数据库 复制和分析的目标位置。Cloud Data Fusion 支持 BigQuery 目标数据库。
身份验证 身份验证机制因源数据库或更改跟踪软件而异。使用源数据库(如 SQL Server 和 MySQL)的内置功能时,系统使用数据库登录进行身份验证。使用更改跟踪软件时,系统使用该软件的身份验证机制。

连接

下表介绍了复制功能所需的网络连接及其使用的安全机制。

发件人 To 可选 协议 网络 身份验证安全性 用途
服务(租户项目) 源数据库 取决于复制来源。用于直接数据库连接的 JDBC。 对等互连 + 防火墙规则 + VPN/互连 + 路由器 数据库登录 在设计时而非执行时需要,时间函数:表列出、评估(可选步骤;在不执行这些步骤的情况下复制可继续进行)
服务(租户项目) Cloud Storage Cloud API VPC-SC IAM 状态管理:偏移、复制状态
Dataproc(您的项目) 源数据库 取决于来源。用于直接数据库连接的 JDBC。 对等互连 + 防火墙规则 + VPN/互连 + 路由器 数据库登录 在执行时需要,用于读取来源数据库中的更改以复制到目标
Dataproc(您的项目) Cloud Storage Cloud API VPC-SC IAM 状态管理:偏移、复制状态
Dataproc(您的项目) BigQuery Cloud API VPC-SC IAM 在执行时需要,用于将源数据库中的更改应用于目标

后续步骤