借助 Cloud Data Fusion Replication,您可以连续、实时地将数据从 SQL Server 和 MySQL 等运维数据存储区复制到 BigQuery 中。
如需使用复制功能,请选择以下方法之一:
- 创建 Cloud Data Fusion 的新实例并添加复制应用。
- 将复制应用添加到现有实例。
请参阅 MySQL、SQL Server 和 Oracle 的教程。
演示项目具有以下优势:
ETL 开发者和数据分析师设置复制作业的简单接口。
在开始复制之前,可以帮助您识别架构不兼容性、连接问题和缺少的功能,然后提供纠正措施。
您可以实时使用最新操作数据在 BigQuery 中进行分析。使用基于日志的复制功能,可以将数据从 Microsoft SQL Server(使用 SQL Server CDC)和 MySQL(使用 MySQL 二进制日志)直接复制到 BigQuery 中。
变更数据捕获 (CDC) 提供了一种数据流中已更改数据的表示法,让计算和处理能够专注于最近更改的记录。这样可以最大限度地减少敏感生产系统的出站数据费用。
支持大规模事务型数据库的企业级可伸缩性支持数据到 BigQuery 的初始加载,并且快照复制无需停机,从而使数据仓库准备好持续使用更改。初始快照创建完成后,系统会实时开始高吞吐量地连续复制更改。
信息中心可帮助您实时了解复制性能。它有助于识别瓶颈和监控数据传输服务等级协议 (SLA)。
包含对数据驻留、CMEK(客户管理的加密密钥)和 VPC Service Controls 的支持。通过将 Cloud Data Fusion 在 Google Cloud 中集成,可确保最高级别的企业安全性和隐私性,同时将最新数据存入您的数据仓库以进行分析。
建议的价格
复制运行时,您需要为 Dataproc 集群付费,同时会产生 BigQuery 的处理费用。为了优化这些费用,我们强烈建议您使用 BigQuery 统一费率价格。
如需了解详情,请参阅 Cloud Data Fusion 价格页面。
复制实体
实体 | 说明 |
---|---|
复制 | 复制是 Cloud Data Fusion 的一项功能,它能够以低延迟将数据从运营数据存储区连续复制到分析数据仓库。使用可选转换配置来源和目标,以创建复制作业。 |
来源 | 读取数据库、表或列更改事件,并使其可在复制作业中进一步处理。复制作业包含一个来源,该来源依赖变更捕获解决方案来提供更改。一个数据库可以有多个来源,每个来源具有不同的变更捕获解决方案。源代码是使用 CDAP 的插件架构构建的可插入模块。如果来源无法满足您的需求,您可以通过实现源接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。 |
目标 | 将从来源接收的更改写入目标数据库中。复制作业包含一个目标。 目标是使用 CDAP 的插件架构构建的可插入模块。如果目标无法满足您的需求,您可以通过实现目标接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。 |
来源属性 | 配置来源,包括连接详细信息、源数据库和表名称、凭据以及其他属性。 |
目标属性 | 配置目标,包括连接详细信息、目标数据库和表名称、凭据以及其他属性。 |
复制作业属性 | 配置复制作业,包括失败阈值、暂存区域、通知和验证设置。 |
草稿 | 一个已保存部分完成的复制作业。完成复制作业定义后,即可启动该作业。 |
事件 | 在来源中更改目标,以便复制到目标。事件包括插入、更新、删除和 DDL(数据定义语言)更改。 |
插入 | 在来源中添加新记录。 |
更新 | 更新来源中的现有记录。 |
删除 | 移除来源中的现有记录。 |
DDL 更改 | 包含架构更改(例如,数据类型或名称的更改)的事件。 |
日志 | 复制作业的操作日志。 |
复制作业详情 | 包含复制作业信息(例如当前状态、操作指标、随时间变化的历史视图、验证结果及其配置)的详情页面。 |
信息中心 | 一个页面,其中列出了所有变更数据捕获活动(包括吞吐量、延迟时间、失败率和验证结果)的状态。 |
操作
操作 | 说明 |
---|---|
部署 | 按照网页界面流程指定来源、目标及其配置,创建新的复制作业。 |
保存 | 正在保存部分创建的复制作业,以便稍后继续创建。 |
删除 | 删除现有复制作业。只能删除已停止的流水线。 |
开始 | 正在启动复制作业。如果有要处理的更改,复制作业会进入“活跃”状态;否则,它会进入“等待”状态。 |
关停 | 停止复制作业。复制作业会停止处理来自来源的更改。 |
查看日志 | 查看复制作业的日志,以进行调试或其他分析。 |
搜索 | 按复制作业的名称、说明或其他复制作业元数据搜索复制作业。 |
评估 | 在开始复制之前先评估复制的影响。评估复制作业会生成评估报告,其中会标记架构不兼容和缺失的功能。 |
监控
复制器状态 | 说明 |
---|---|
已部署 | 复制作业已部署,但尚未启动。在此状态下,复制作业不会复制事件。 |
正在启动 | 复制作业正在初始化,尚未准备好复制更改。 |
正在运行 | 复制作业已启动并正在复制更改。 |
正在关停 | 复制作业正在停止。 |
已关停 | 复制作业已停止。 |
失败 | 由于严重错误,复制作业失败。 |
表状态
概念 | 说明 |
---|---|
快照 | 复制作业会在复制更改之前截取表的当前状态的快照。 |
正在复制 | 复制作业正在将源表中的更改复制到目标表中。 |
失败 | 由于出错,复制作业无法从源表复制更改。 |
指标
概念 | 说明 |
---|---|
插入 | 在选定时间段内对目标应用的插入次数。 |
更新 | 在选定时间段内对目标应用的更新次数。 |
删除 | 在选定时间段内对目标应用的删除次数。 |
DDL | 在选定时间段内对目标应用的 DDL 更改次数。 |
吞吐量 | 在选定时间段内复制到目标的事件数和字节数。 |
延迟时间 | 在选定时间段内数据复制到目标的延迟时间。 |
组件
组件 | 说明 |
---|---|
服务 | 监督复制作业的端到端编排,并提供设计、部署、管理和监控复制作业的功能。该组件在 Cloud Data Fusion 租户项目中运行(租户项目对用户不可见)。其状态显示在 Cloud Data Fusion 网页界面的 **系统管理员** 页面上。 |
状态管理 | 该服务管理客户项目中 Cloud Storage 存储桶中每个复制作业的状态。您可在创建复制作业时配置该存储桶。它会存储每个复制作业的当前偏移量和复制状态。 |
执行 | Dataproc 集群提供在您的项目中运行的复制作业的执行环境。复制作业使用 CDAP 工作器执行。执行环境的大小和特征通过 Compute Engine 配置文件进行配置。 |
源数据库 | 复制到目标数据库的生产运营数据库。此数据库可位于本地或 Google Cloud 上。Cloud Data Fusion Replication 支持 MySQL、Microsoft SQL Server 和 Oracle 源数据库。 |
变更跟踪解决方案 | Cloud Data Fusion 依赖于更改跟踪解决方案来读取源数据库中的更改,而不是在源数据库上运行的代理上运行。该解决方案可以是源数据库的组件,也可以是单独许可的第三方解决方案。在后一种情况下,更改跟踪解决方案在本地运行、与源数据库在同一位置运行或在 Google Cloud 上运行。每个来源都必须与更改跟踪解决方案相关联。
|
目标数据库 | 复制和分析的目标位置。Cloud Data Fusion 支持 BigQuery 目标数据库。 |
身份验证 | 身份验证机制因源数据库或更改跟踪软件而异。使用源数据库(如 SQL Server 和 MySQL)的内置功能时,系统使用数据库登录进行身份验证。使用变更跟踪软件时,需使用该软件的身份验证机制。 |
连接性
下表介绍了复制功能所需的网络连接及其使用的安全机制。
发件人 | To | 可选 | 协议 | 网络 | 身份验证安全性 | 目的 |
---|---|---|---|---|---|---|
服务(租户项目) | 源数据库 | 是 | 取决于复制来源。用于直接数据库连接的 JDBC。 | 对等互连 + 防火墙规则 + VPN/互连 + 路由器 | 数据库登录 | 在设计时而非执行时需要,时间函数:表列出、评估(可选步骤;在不执行这些步骤的情况下复制可继续进行) |
服务(租户项目) | Cloud Storage | 否 | Cloud API | VPC-SC | IAM | 状态管理:偏移、复制状态 |
Dataproc(您的项目) | 源数据库 | 否 | 取决于来源。用于直接数据库连接的 JDBC。 | 对等互连 + 防火墙规则 + VPN/互连 + 路由器 | 数据库登录 | 在执行时需要,用于读取来源数据库中的更改以复制到目标 |
Dataproc(您的项目) | Cloud Storage | 否 | Cloud API | VPC-SC | IAM | 状态管理:偏移、复制状态 |
Dataproc(您的项目) | BigQuery | 否 | Cloud API | VPC-SC | IAM | 在执行时需要,用于将源数据库中的更改应用于目标 |
后续步骤
- 浏览将数据从 SQL Server 复制到 BigQuery 教程。
- 浏览将数据从 MySQL 复制到 BigQuery教程。
- 浏览将数据从 Oracle 复制到 BigQuery教程。
- 参阅 Replication API 参考文档。
- 参阅复制的数据类型映射。