Datastream 概览

概览

Datastream 是一项易于使用的无服务器变更数据捕获 (CDC) 和复制服务,可让您可靠地同步数据,同时将延迟时间缩至最短。

Datastream 可将数据从运营数据库无缝复制到 BigQuery。此外,Datastream 还支持将变更事件流写入 Cloud Storage,并提供与 Dataflow 模板的简化集成,以构建用于将数据加载到各种目标位置(例如 Cloud SQL 和 Spanner)的自定义工作流。您还可以使用 Datastream 直接利用 Cloud Storage 中的事件流来实现事件驱动型架构。Datastream 支持 Oracle、MySQL、SQL Server 和 PostgreSQL(包括 AlloyDB for PostgreSQL)源。

Datastream 的优势包括:

  • 无缝设置 ELT(提取、加载、转换)流水线,以实现低延迟数据复制,从而在 BigQuery 中实现近乎实时的数据洞见。
  • 采用无服务器模式,无需预配或管理资源,并且服务会根据需要自动扩容和缩容,停机时间极短。
  • 易于使用的设置和监控体验,超快时间实现价值。
  • 集成了 Google Cloud 数据服务的精华用于跨 Datastream、Dataflow、Pub/Sub、BigQuery 等进行数据集成的产品组合。
  • 跨异构数据库和应用同步和统一数据流。
  • 确保安全,具有专用连接选项以及您希望 Google Cloud 提供的安全性。
  • 准确可靠,同时提供公开透明的状态报告,而且在数据和架构变化时具有强大的灵活处理能力。
  • 支持多种使用场景,包括用于迁移和混合云配置的分析、数据库复制和同步,并支持构建事件驱动型架构。

使用场景

Datastream 的流式传输功能可实现各种使用场景:

  • 以最低延迟时间复制和同步整个组织中的数据

    您可以可靠地跨异构数据库和应用同步数据,同时确保延迟时间短,对来源性能的影响最小。解锁数据流跨混合环境进行分析、数据库复制、云迁移和事件驱动型架构的能力。

  • 通过无服务器架构无缝扩容或缩容

    借助易于使用的无服务器服务快速启动并运行,随着数据量的变化而无缝扩缩。专注于从数据中获取最新的数据洞见并响应高优先级问题,而不是基础架构管理、性能微调或资源预配。

  • 与 Google Cloud 的数据集成套件集成

    利用 Google Cloud 的产品数据集成套件,关联整个组织的数据。Datastream 利用 Dataflow 模板将数据加载到 BigQuery、Spanner 和 Cloud SQL 中。

体验元素

Datastream 包含 3 个主要元素:

  • 借助专用连接配置,Datastream 可以通过专用网络(在 Google Cloud 内部或与通过 VPN 或 Interconnect 连接的外部来源)与数据源进行通信。此通信通过 Virtual Private Cloud (VPC) 对等互连连接进行。
  • 连接配置文件表示与来源和目标位置的连接信息。此信息将由数据流使用。
  • 数据流使用连接配置文件中的信息将 CDC 和回填数据从来源转移到目标位置。