借助 Cloud Data Fusion Replication,您可以从运营数据存储区(如 SQL Server 和 MySQL)中实时地连续将数据复制到 BigQuery 中。
如需使用复制功能,请选择以下方法之一:
- 创建新的 Cloud Data Fusion 实例,并添加 Replication 应用。
- 将复制应用添加到现有实例。
演示项目具有以下优势:
在开始复制之前,识别架构不兼容、连接问题和缺失的功能,然后提供纠正操作。
在 BigQuery 中实时使用最新的运营数据进行分析。使用基于日志的复制功能,可以将数据从 Microsoft SQL Server(使用 SQL Server CDC)和 MySQL(使用 MySQL 二进制日志)直接复制到 BigQuery 中。
变更数据捕获 (CDC) 技术,用于对数据流中已更改的数据进行表示法,让计算和处理能够专门关注最近更改的记录。这样可以最大限度地降低敏感生产系统产生的出站数据费用。
支持大量事务数据库的企业可伸缩性初始快照完成后,即会开始实时地对更改进行高吞吐量、持续复制。
可帮助您实时深入了解复制性能的信息中心。它对于识别瓶颈和监控数据传输服务等级协议 (SLA) 非常有用。
包括对数据驻留、客户管理的加密密钥 (CMEK) 和 VPC Service Controls 的支持。在 Google Cloud 中集成 Cloud Data Fusion,可确保实现最高级别的企业安全性和隐私性,同时在您的数据仓库中提供最新数据以进行分析。
建议的价格
复制功能运行时,您需要为 Dataproc 集群付费,并且还会产生 BigQuery 的处理费用。为了优化这些费用,我们强烈建议您使用 BigQuery 统一费率价格。
如需了解详情,请参阅 Cloud Data Fusion 价格页面。
复制实体
实体 | 说明 |
---|---|
复制 | 复制是 Cloud Data Fusion 的一项功能,让您可以以低延迟持续地将数据从运营数据存储区复制到分析数据仓库。通过配置来源和目标以及可选转换来创建复制作业。 |
来源 | 读取数据库、表或列更改事件,并使其可在复制作业中进一步处理。复制作业包含一个源,该源依赖变更捕获解决方案来提供更改。一个数据库可以有多个来源,每个来源具有不同的变更捕获解决方案。源代码是使用 CDAP 的插件架构构建的可插入模块。如果来源无法满足您的需求,您可以通过实现源接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。 |
目标 | 将从来源接收的更改写入目标数据库中。一个复制作业包含一个目标。 目标是使用 CDAP 的插件架构构建的可插入模块。如果目标无法满足您的需求,您可以通过实现目标接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。 |
来源属性 | 配置来源,包括连接详细信息、源数据库和表名称、凭据以及其他属性。 |
目标属性 | 配置目标,包括连接详细信息、目标数据库和表名称、凭据以及其他属性。 |
复制作业属性 | 配置复制作业,包括失败阈值、暂存区域、通知和验证设置。 |
草稿 | 已保存的部分完成的复制作业。复制作业定义完成后,即可启动。 |
事件 | 在来源中更改目标,以便复制到目标。事件包括插入、更新、删除和 DDL(数据定义语言)更改。 |
插入 | 在来源中添加新记录。 |
更新 | 更新来源中的现有记录。 |
删除 | 移除来源中的现有记录。 |
DDL 更改 | 包含架构更改(例如,数据类型或名称的更改)的事件。 |
日志 | 复制作业的操作日志。 |
复制作业详情 | 包含复制作业信息(例如其当前状态、操作指标、历史视图、验证结果及其配置)的详情页面。 |
信息中心 | 一个页面,其中列出了所有变更数据捕获活动(包括吞吐量、延迟时间、失败率和验证结果)的状态。 |
操作
操作 | 说明 |
---|---|
部署 | 按照网页界面流程指定来源、目标及其配置,以创建新的复制作业。 |
保存 | 保存部分创建的复制作业,以便稍后继续创建。 |
删除 | 删除现有复制作业。只能删除已停止的流水线。 |
开始 | 启动复制作业。如果有需要处理的更改,则复制作业会进入“活跃”状态;否则,复制作业会进入“等待”状态。 |
关停 | 停止复制作业。复制作业会停止处理来自来源的更改。 |
查看日志 | 查看复制作业的日志,以便进行调试或其他分析。 |
搜索 | 按名称、说明或其他复制作业元数据搜索复制作业。 |
评估 | 在开始复制之前先评估复制的影响。评估复制作业会生成评估报告,其中会标记架构不兼容性和缺失的功能。 |
监控
复制器状态 | 说明 |
---|---|
已部署 | 复制作业已部署,但尚未启动。在此状态下,复制作业不会复制事件。 |
正在启动 | 复制作业正在初始化,尚未准备好复制更改。 |
正在运行 | 复制作业已启动,并且正在复制更改。 |
正在停止 | 复制作业正在停止。 |
已停止 | 复制作业已停止。 |
失败 | 由于严重错误,复制作业失败。 |
表状态
概念 | 说明 |
---|---|
正在截取快照 | 在复制更改之前,复制作业正在截取表的当前状态的快照。 |
正在复制 | 复制作业正在将更改从源表复制到目标表。 |
失败 | 由于出现错误,复制作业无法从源表中复制更改。 |
指标
概念 | 说明 |
---|---|
插入 | 在选定时间段内对目标应用的插入次数。 |
更新 | 在选定时间段内对目标应用的更新次数。 |
删除 | 在选定时间段内对目标应用的删除次数。 |
DDL | 在选定时间段内对目标应用的 DDL 更改次数。 |
吞吐量 | 在选定时间段内复制到目标的事件数和字节数。 |
延迟时间 | 在选定时间段内数据复制到目标的延迟时间。 |
组件
组件 | 说明 |
---|---|
服务 | 监督复制作业的端到端编排,并提供设计、部署、管理和监控复制作业的功能。该组件在 Cloud Data Fusion 租户项目中运行(租户项目对用户不可见)。其状态显示在 Cloud Data Fusion 网页界面的 **系统管理员** 页面上。 |
状态管理 | 该服务管理客户项目的 Cloud Storage 存储桶中每个复制作业的状态。您可以在创建复制作业时配置存储桶。它存储每个复制作业的当前偏移量和复制状态。 |
执行 | Dataproc 集群提供在您的项目中运行的复制作业的执行环境。复制作业使用 CDAP 工作器执行。执行环境的大小和特性使用 Compute Engine 配置文件进行配置。 |
源数据库 | 您的生产运营数据库,可复制到目标数据库。此数据库可位于本地或 Google Cloud 上。Cloud Data Fusion Replication 支持 MySQL、Microsoft SQL Server 和 Oracle 源数据库。 |
变更跟踪解决方案 | Cloud Data Fusion 依赖于更改跟踪解决方案来读取源数据库中的更改,而不是在源数据库上运行的代理上运行。该解决方案可以是源数据库的组件,也可以是单独许可的第三方解决方案。在后一种情况下,更改跟踪解决方案在本地运行、与源数据库在同一位置运行或在 Google Cloud 上运行。每个来源都必须与更改跟踪解决方案相关联。
|
目标数据库 | 复制和分析的目标位置。Cloud Data Fusion 支持 BigQuery 目标数据库。 |
身份验证 | 身份验证机制因源数据库或更改跟踪软件而异。使用源数据库(如 SQL Server 和 MySQL)的内置功能时,系统使用数据库登录进行身份验证。在使用变更跟踪软件时,需使用该软件的身份验证机制。 |
网络连接
下表介绍了复制功能所需的网络连接及其使用的安全机制。
发件人 | To | 可选 | 协议 | 网络 | 身份验证安全性 | Purpose |
---|---|---|---|---|---|---|
服务(租户项目) | 源数据库 | 是 | 取决于复制来源。用于直接数据库连接的 JDBC。 | 对等互连 + 防火墙规则 + VPN/互连 + 路由器 | 数据库登录 | 在设计时而非执行时需要,时间函数:表列出、评估(可选步骤;在不执行这些步骤的情况下复制可继续进行) |
服务(租户项目) | Cloud Storage | 否 | Cloud API | VPC-SC | IAM | 状态管理:偏移、复制状态 |
Dataproc(您的项目) | 源数据库 | 否 | 取决于来源。用于直接数据库连接的 JDBC。 | 对等互连 + 防火墙规则 + VPN/互连 + 路由器 | 数据库登录 | 在执行时需要,用于读取来源数据库中的更改以复制到目标 |
Dataproc(您的项目) | Cloud Storage | 否 | Cloud API | VPC-SC | IAM | 状态管理:偏移、复制状态 |
Dataproc(您的项目) | BigQuery | 否 | Cloud API | VPC-SC | IAM | 在执行时需要,用于将源数据库中的更改应用于目标 |
后续步骤
- 参阅 Replication API 参考文档。
- 请参阅复制功能的数据类型映射。