借助 Cloud Data Fusion Replication,您可以创建 从运营数据存储区(如 SQL)中持续实时地存储数据 导入到 BigQuery。
如需使用“复制”功能,请选择以下任一方式:
- 创建一个新的 Cloud Data Fusion 实例并添加复制应用。
- 将复制应用添加到现有实例。
演示项目具有以下优势:
在开始复制之前,可以识别架构不兼容性、连接问题和缺少的功能,然后提供纠正措施。
实时使用最新操作数据在 BigQuery 中进行分析。使用基于日志的复制功能,可以将数据从 Microsoft SQL Server(使用 SQL Server CDC)和 MySQL(使用 MySQL 二进制日志)直接复制到 BigQuery 中。
变更数据捕获 (CDC) 提供了一种数据流中已更改的数据的表示形式,使计算和处理操作主要侧重于最近更改的记录。这样可以最大限度地减少敏感生产系统的出站数据流量费用。
企业级可伸缩性,支持大量事务型数据库 初始 支持在 BigQuery 中加载数据,且停机时间为零 快照复制,使数据仓库准备好使用更改 连续不断初始快照完成后,高吞吐量、连续 系统会开始实时复制更改。
信息中心可帮助您实时了解复制性能。这有助于确定瓶颈并监控数据传输服务等级协议 (SLA)。
包含对数据驻留、CMEK(客户管理的加密密钥)和 VPC Service Controls 的支持。Cloud Data Fusion 在 Google Cloud 中集成可确保遵循最高级别的企业级安全与隐私权,同时使数据仓库为您提供最新数据进行分析。
建议的价格
复制功能运行时,您需要为 Dataproc 集群付费,并且会对 BigQuery 产生处理费用。为了优化这些费用,我们强烈建议您使用 BigQuery 统一费率价格。
如需了解详情,请参阅 Cloud Data Fusion 价格页面。
复制实体
实体 | 说明 |
---|---|
复制 | 复制是 Cloud Data Fusion 的一项功能,能够以低延迟方式将数据从操作数据存储区复制到分析数据仓库中。创建 来配置单个副本 源和目标以及可选转换。 |
来源 | 读取数据库、表或列更改事件,并使这些事件可用于在复制作业中进行进一步处理。复制作业包含一个来源,它依赖于变更捕获解决方案来提供更改。一个数据库可以有多个来源,每个来源具有不同的变更捕获解决方案。源代码是使用插件构建的可插入模块 是 CDAP 的架构。如果来源无法满足您的需求,您可以通过实现源接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。 |
目标 | 将从来源接收的更改写入目标数据库中。复制作业包含一个目标。目标是使用插件构建的可插入模块 是 CDAP 的架构。如果目标无法满足您的需求,您可以通过实现目标接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。 |
来源属性 | 配置来源,包括连接详细信息、源数据库和表名称、凭据以及其他属性。 |
目标属性 | 配置目标,包括连接详细信息、目标数据库和表名称、凭据以及其他属性。 |
复制作业属性 | 配置复制作业,包括失败阈值、 暂存区域、通知和验证设置。 |
草稿 | 已保存的部分完成的复制作业。当 复制作业定义已完成,可以启动了。 |
活动 | 在来源中更改目标,以便复制到目标。事件包括插入、更新、删除和 DDL(数据定义语言)更改。 |
插入 | 在来源中添加新记录。 |
更新 | 更新来源中的现有记录。 |
删除 | 移除来源中的现有记录。 |
DDL 更改 | 包含架构更改(例如,数据类型或名称的更改)的事件。 |
日志 | 复制作业的操作日志。 |
复制作业详情 | 包含复制作业信息(例如 当前状态, 运营指标, 随时间变化的历史视图, 验证 及其配置。 |
信息中心 | 一个页面,其中列出了所有变更数据捕获活动(包括吞吐量、延迟时间、失败率和验证结果)的状态。 |
操作
操作 | 说明 |
---|---|
部署 | 按照网页界面创建新的复制作业 流程指定来源、目标及其配置。 |
保存 | 保存部分创建的复制作业以继续 创建过程 |
删除 | 删除现有复制作业。只能删除已停止的流水线。 |
开始 | 启动复制作业。如果需要更改 复制作业将进入“活跃”状态; 否则,会进入“waiting”状态。 |
停止 | 停止复制作业。复制作业会停止处理来自来源的更改。 |
查看日志 | 查看复制作业的日志以进行调试 或其他分析方法 |
搜索 | 按名称、说明或其他复制作业元数据搜索复制作业。 |
评估 | 在开始复制之前先评估复制的影响。评估复制作业会生成一份评估报告,以对架构不兼容和缺失功能进行标记。 |
监控
复制器状态 | 说明 |
---|---|
已部署 | 复制作业已部署,但尚未启动。 在此状态下,复制作业不会复制事件。 |
正在启动 | 复制作业正在初始化,尚未准备好复制更改。 |
正在运行 | 复制作业已启动,正在复制更改。 |
正在停止 | 复制作业正在停止。 |
已停止 | 复制作业已停止。 |
失败 | 由于出现严重错误,复制作业失败。 |
表状态
概念 | 说明 |
---|---|
快照 | 复制作业正在截取当前内容的快照 表的状态。 |
复制 | 复制作业正在从来源复制更改 导出到目标表。 |
失败 | 复制作业无法从 存在错误。 |
指标
概念 | 说明 |
---|---|
插入 | 在选定时间段内对目标应用的插入次数。 |
更新 | 在选定时间段内对目标应用的更新次数。 |
删除 | 在选定时间段内对目标应用的删除次数。 |
DDL | 在选定时间段内对目标应用的 DDL 更改次数。 |
吞吐量 | 在选定时间段内复制到目标的事件数和字节数。 |
延迟时间 | 在选定时间段内数据复制到目标的延迟时间。 |
组件
组件 | 说明 |
---|---|
服务 | 监督复制作业的端到端编排, 提供用于设计、部署、管理和 监控复制作业该组件在 Cloud Data Fusion 租户项目中运行(租户项目对用户不可见)。其状态显示在 Cloud Data Fusion 网页界面。 |
状态管理 | 该服务在一个集群中管理每个复制作业的状态, 客户项目中的 Cloud Storage 存储桶。存储桶可以是 在创建复制作业时配置的。它会存储 每个节点的当前偏移和复制状态 复制作业。 |
执行 | Dataproc 集群提供 复制作业,这些作业在您的项目中运行。 复制作业使用 CDAP 工作器。执行的规模和特征 都配置了 Compute Engine 配置文件 |
源数据库 | 您的生产运营数据库,可复制到目标中 数据库。此数据库可位于本地或 Google Cloud 上。Cloud Data Fusion Replication 支持 MySQL、Microsoft SQL Server 和 Oracle 源数据库。 |
变更跟踪解决方案 | Cloud Data Fusion 依赖于更改跟踪解决方案来读取源数据库中的更改,而不是在源数据库上运行的代理上运行。该解决方案可以是源数据库的组件,也可以是单独许可的第三方解决方案。在后一种情况下,更改跟踪解决方案在本地运行、与源数据库在同一位置运行或在 Google Cloud 上运行。每个来源都必须与更改跟踪解决方案相关联。
|
目标数据库 | 复制和分析的目标位置。Cloud Data Fusion 支持 BigQuery 目标数据库。 |
身份验证 | 身份验证机制因源数据库或更改跟踪软件而异。使用源数据库(如 SQL Server 和 MySQL)的内置功能时,系统使用数据库登录进行身份验证。在使用变更跟踪软件时, 使用的身份验证机制。 |
连接
下表介绍了复制功能所需的网络连接及其使用的安全机制。
发件人 | To | 可选 | 协议 | 网络 | 身份验证安全性 | 用途 |
---|---|---|---|---|---|---|
服务(租户项目) | 源数据库 | 是 | 取决于复制来源。用于直接数据库连接的 JDBC。 | 对等互连 + 防火墙规则 + VPN/互连 + 路由器 | 数据库登录 | 在设计时而非执行时需要,时间函数:表列出、评估(可选步骤;在不执行这些步骤的情况下复制可继续进行) |
服务(租户项目) | Cloud Storage | 否 | Cloud API | VPC-SC | IAM | 状态管理:偏移、复制状态 |
Dataproc(您的项目) | 源数据库 | 否 | 取决于来源。用于直接数据库连接的 JDBC。 | 对等互连 + 防火墙规则 + VPN/互连 + 路由器 | 数据库登录 | 在执行时需要,用于读取来源数据库中的更改以复制到目标 |
Dataproc(您的项目) | Cloud Storage | 否 | Cloud API | VPC-SC | IAM | 状态管理:偏移、复制状态 |
Dataproc(您的项目) | BigQuery | 否 | Cloud API | VPC-SC | IAM | 在执行时需要,用于将源数据库中的更改应用于目标 |
后续步骤
- 参阅 Replication API 参考文档。
- 请参阅复制功能的数据类型映射。