借助 Cloud Data Fusion 复制功能,您可以将数据从操作数据存储区(如 SQL Server 和 MySQL)持续且实时地复制到 BigQuery 中。
如需使用“复制”功能,请选择以下任一方式:
- 创建一个新的 Cloud Data Fusion 实例并添加复制应用。
- 将“复制”应用添加到现有实例。
优势包括:
在开始复制之前,可以识别架构不兼容性、连接问题和缺少的功能,然后提供纠正措施。
实时使用最新操作数据在 BigQuery 中进行分析。使用基于日志的复制功能,可以将数据从 Microsoft SQL Server(使用 SQL Server CDC)和 MySQL(使用 MySQL 二进制日志)直接复制到 BigQuery 中。
变更数据捕获 (CDC) 提供了一种数据流中已更改的数据的表示形式,使计算和处理操作主要侧重于最近更改的记录。这样可以最大限度地减少敏感生产系统的出站数据流量费用。
支持大规模事务型数据库的企业级可伸缩性支持数据到 BigQuery 的初始加载,并且快照复制无需停机,从而使数据仓库准备好持续使用更改。完成初始快照后,高吞吐量的持续复制更改会实时启动。
信息中心可帮助您实时了解复制性能。这有助于确定瓶颈并监控数据传输服务等级协议 (SLA)。
包含对数据驻留、CMEK(客户管理的加密密钥)和 VPC Service Controls 的支持。Cloud Data Fusion 在Google Cloud 中集成可确保遵循最高级别的企业级安全与隐私权,同时使数据仓库为您提供最新数据进行分析。
建议的价格
复制功能运行时,您需要为 Dataproc 集群付费,并且会对 BigQuery 产生处理费用。为了优化这些费用,我们强烈建议您使用 BigQuery 统一费率价格。
如需了解详情,请参阅 Cloud Data Fusion 价格页面。
复制实体
实体 | 说明 |
---|---|
复制 | 复制是 Cloud Data Fusion 的一项功能,能够以低延迟方式将数据从操作数据存储区复制到分析数据仓库中。可通过配置具有可选转换的来源和目标来创建复制作业。 |
来源 | 读取数据库、表或列更改事件,并使这些事件可用于在复制作业中进行进一步处理。复制作业包含一个来源,它依赖于变更捕获解决方案来提供更改。一个数据库可以有多个来源,每个来源具有不同的变更捕获解决方案。来源是使用 CDAP 的插件架构构建的可插入式模块。如果来源无法满足您的需求,您可以通过实现源接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。 |
目标 | 将从来源接收的更改写入目标数据库中。复制作业包含一个目标。目标是使用 CDAP 的插件架构构建的可插入式模块。如果目标无法满足您的需求,您可以通过实现目标接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。 |
来源属性 | 配置来源,包括连接详细信息、源数据库和表名称、凭据以及其他属性。 |
目标属性 | 配置目标,包括连接详细信息、目标数据库和表名称、凭据以及其他属性。 |
复制作业属性 | 配置复制作业,包括失败阈值、暂存区、通知和验证设置。 |
草稿 | 已保存、部分完成的复制作业。复制作业定义完成后即可启动。 |
事件 | 在来源中更改目标,以便复制到目标。事件包括插入、更新、删除和 DDL(数据定义语言)更改。 |
插入 | 在来源中添加新记录。 |
更新 | 更新来源中的现有记录。 |
删除 | 移除来源中的现有记录。 |
DDL 更改 | 包含架构更改(例如,数据类型或名称的更改)的事件。 |
日志 | 复制作业的操作日志。 |
复制作业详情 | 包含复制作业信息(例如,当前状态、操作指标、一段时间内的历史视图、验证结果及其配置)的详情页面。 |
信息中心 | 一个页面,其中列出了所有变更数据捕获活动(包括吞吐量、延迟时间、失败率和验证结果)的状态。 |
操作
操作 | 说明 |
---|---|
部署 | 按照 Web 界面流程指定来源、目标及其配置来创建新复制作业。 |
保存 | 保存部分创建的复制作业,以便稍后继续创建。 |
删除 | 删除现有复制作业。只能删除已停止的流水线。 |
开始 | 启动复制作业。如果有要处理的更改,复制作业将进入“active”状态;否则,它将进入“waiting”状态。 |
停止 | 停止复制作业。复制作业会停止处理来自来源的更改。 |
查看日志 | 查看复制作业的日志以进行调试或其他分析。 |
搜索 | 按名称、说明或其他复制作业元数据搜索复制作业。 |
评估 | 在开始复制之前先评估复制的影响。评估复制作业会生成一份评估报告,以对架构不兼容和缺失功能进行标记。 |
监控
复制器状态 | 说明 |
---|---|
已部署 | 复制作业已部署,但未启动。在此状态下,复制作业不会复制事件。 |
正在启动 | 复制作业正在初始化,尚未准备好复制更改。 |
正在运行 | 复制作业已启动,正在复制更改。 |
正在停止 | 复制作业正在停止。 |
已停止 | 复制作业已停止。 |
失败 | 由于出现严重错误,复制作业失败。 |
表状态
概念 | 说明 |
---|---|
快照 | 复制作业正在截取复制更改之前的表的当前状态快照。 |
复制 | 复制作业正在将源表中的更改复制到目标表中。 |
失败 | 由于出错,复制作业无法从源表复制更改。 |
指标
概念 | 说明 |
---|---|
插入 | 在选定时间段内对目标应用的插入次数。 |
更新 | 在选定时间段内对目标应用的更新次数。 |
删除 | 在选定时间段内对目标应用的删除次数。 |
DDL | 在选定时间段内对目标应用的 DDL 更改次数。 |
吞吐量 | 在选定时间段内复制到目标的事件数和字节数。 |
延迟时间 | 在选定时间段内数据复制到目标的延迟时间。 |
组件
组件 | 说明 |
---|---|
服务 | 监督复制作业的端到端编排,并提供设计、部署、管理和监控复制作业的功能。该组件在 Cloud Data Fusion 租户项目中运行(租户项目对用户不可见)。其状态显示在 Cloud Data Fusion 网页界面的“系统管理员”页面上。 |
状态管理 | 该服务管理客户项目的 Cloud Storage 存储分区中的每个复制作业的状态。创建复制作业后,您可以配置存储分区。该组件存储每个复制作业的当前偏移和复制状态。 |
执行 | Dataproc 集群提供在项目中运行的复制作业的执行环境。复制作业使用 CDAP 工作器执行。执行环境的规模和特征使用 Compute Engine 配置文件进行配置。 |
源数据库 | 要复制到目标数据库的生产操作数据库。此数据库可位于本地或 Google Cloud上。Cloud Data Fusion Replication 支持 MySQL、Microsoft SQL Server 和 Oracle 源数据库。 |
变更跟踪解决方案 | Cloud Data Fusion 依赖于更改跟踪解决方案来读取源数据库中的更改,而不是在源数据库上运行的代理上运行。该解决方案可以是源数据库的组件,也可以是单独许可的第三方解决方案。在后一种情况下,更改跟踪解决方案在本地运行、与源数据库在同一位置运行或在 Google Cloud上运行。每个来源都必须与更改跟踪解决方案相关联。
|
目标数据库 | 复制和分析的目标位置。Cloud Data Fusion 支持 BigQuery 目标数据库。 |
身份验证 | 身份验证机制因源数据库或更改跟踪软件而异。使用源数据库(如 SQL Server 和 MySQL)的内置功能时,系统使用数据库登录进行身份验证。使用更改跟踪软件时,系统使用该软件的身份验证机制。 |
连接
下表介绍了复制功能所需的网络连接及其使用的安全机制。
发件人 | To | 可选 | 协议 | 网络 | 身份验证安全性 | 用途 |
---|---|---|---|---|---|---|
服务(租户项目) | 源数据库 | 是 | 取决于复制来源。用于直接数据库连接的 JDBC。 | 对等互连 + 防火墙规则 + VPN/互连 + 路由器 | 数据库登录 | 在设计时而非执行时需要,时间函数:表列出、评估(可选步骤;在不执行这些步骤的情况下复制可继续进行) |
服务(租户项目) | Cloud Storage | 否 | Cloud API | VPC-SC | IAM | 状态管理:偏移、复制状态 |
Dataproc(您的项目) | 源数据库 | 否 | 取决于来源。用于直接数据库连接的 JDBC。 | 对等互连 + 防火墙规则 + VPN/互连 + 路由器 | 数据库登录 | 在执行时需要,用于读取来源数据库中的更改以复制到目标 |
Dataproc(您的项目) | Cloud Storage | 否 | Cloud API | VPC-SC | IAM | 状态管理:偏移、复制状态 |
Dataproc(您的项目) | BigQuery | 否 | Cloud API | VPC-SC | IAM | 在执行时需要,用于将源数据库中的更改应用于目标 |
后续步骤
- 参阅 Replication API 参考文档。
- 请参阅复制的数据类型映射。