概览
Datastream 是一项易于使用的无服务器变更数据捕获 (CDC) 和复制服务,可让您可靠地同步数据,同时将延迟时间缩至最短。
Datastream 可将数据从运营数据库无缝复制到 BigQuery。此外,Datastream 还支持将变更事件流写入 Cloud Storage,并提供与 Dataflow 模板的简化集成,以构建用于将数据加载到各种目标位置(例如 Cloud SQL 和 Spanner)的自定义工作流。您还可以使用 Datastream 直接利用 Cloud Storage 中的事件流来实现事件驱动型架构。Datastream 支持 Oracle、MySQL、SQL Server 和 PostgreSQL(包括 AlloyDB for PostgreSQL)源。
Datastream 的优势包括:
- 无缝设置 ELT(提取、加载和转换)流水线,实现低延迟数据复制,以便在 BigQuery 中实现近乎实时的数据分析。
- 采用无服务器模式,无需预配或管理资源,并且服务会根据需要自动扩容和缩容,停机时间极短。
- 易于使用的设置和监控体验,超快时间实现价值。
- 集成了 Google Cloud 数据服务的精华用于跨 Datastream、Dataflow、Pub/Sub、BigQuery 等进行数据集成的产品组合。
- 跨异构数据库和应用同步和统一数据流。
- 确保安全,具有专用连接选项以及您希望 Google Cloud 提供的安全性。
- 准确可靠,同时提供公开透明的状态报告,而且在数据和架构变化时具有强大的灵活处理能力。
- 支持多种使用场景,包括用于迁移和混合云配置的分析、数据库复制和同步,并支持构建事件驱动型架构。
使用场景
Datastream 的流式传输功能可实现各种使用场景:
以最低延迟时间复制和同步整个组织中的数据
您可以可靠地跨异构数据库和应用同步数据,同时确保延迟时间短,对来源性能的影响最小。解锁数据流跨混合环境进行分析、数据库复制、云迁移和事件驱动型架构的能力。
通过无服务器架构无缝扩容或缩容
借助易于使用的无服务器服务快速启动并运行,随着数据量的变化而无缝扩缩。专注于从数据中获取最新的数据洞见并响应高优先级问题,而不是基础架构管理、性能微调或资源预配。
与 Google Cloud 的数据集成套件集成
利用 Google Cloud 的产品数据集成套件,关联整个组织的数据。Datastream 利用 Dataflow 模板将数据加载到 BigQuery、Spanner 和 Cloud SQL 中。
体验元素
Datastream 包含 3 个主要元素:
- 借助专用连接配置,Datastream 可以通过专用网络(在 Google Cloud 内部或与通过 VPN 或 Interconnect 连接的外部来源)与数据源进行通信。此通信通过 Virtual Private Cloud (VPC) 对等互连连接进行。
- 连接配置文件表示与来源和目标位置的连接信息。此信息将由数据流使用。
- 数据流使用连接配置文件中的信息将 CDC 和回填数据从来源转移到目标位置。
后续步骤
- 开始将数据从源数据库复制到 BigQuery 数据集。
- 详细了解 Datastream 的主要概念和功能。
- 了解如何创建专用连接配置。 连接配置文件和数据流。