数据集成和 ELT

BigQuery(Google Cloud 的全托管式数据平台)是一种经济高效且可扩缩的数据集成和分析解决方案。

概览

使用 BigQuery 进行数据集成和 ELT

ELT(提取、加载、转换)是 Google Cloud 推荐的数据集成模式。ELT 涉及从源系统提取数据,将其加载到 BigQuery 中,然后将其转换为所需的格式以进行分析。ETL(提取、转换、加载)在将数据加载到数据仓库之前会对数据进行转换,而 ELT 方法与 ETL 不同,它让您可以充分利用 BigQuery 的强大功能来执行数据转换,并让任何 SQL 用户都能有效地开发数据集成流水线。

使用 ELT 缩短上市时间并降低成本

ELT 方法通过提供一个以数据为中心的熟悉框架,最大限度地缩短了学习曲线,从而加快了上市速度。ELT 还消除了对单独的 ETL 基础设施的需求,从而在加载前减少了与数据转换相关的费用。

通过内置治理功能提高可伸缩性和性能

BigQuery 的架构支持大规模扩容和并行处理,可高效处理大型数据集和复杂的转换。ELT 通过将数据集中到 BigQuery 中来实现数据治理,从而实现平台内置的一致数据质量和安全政策。

灵活多样的数据集成

BigQuery 支持各种数据源和格式,包括 Apache Iceberg,它可灵活地集成各种数据。除了数据,语言选择也同样灵活。ELT 的一个主要好处是 SQL 适用于许多 SDLC 流水线。


将数据导入 BigQuery

将数据导入 BigQueryBigQuery 与 ELT 的数据集成路径。
阶段解决方案

提取和加载

批量加载BigQuery Data Transfer Service (DTS) 可自动将数据从受支持的数据源批量加载到 BigQuery 中。

流式加载: Pub/Sub BigQuery 订阅会在收到 Pub/Sub 消息时将其写入现有 BigQuery 表。

变更数据捕获 (CDC)Datastream 可从数据库将非侵入性变更数据捕获 (CDC) 导入 BigQuery。

与外部数据源联合:BigQuery 支持与多个外部数据源联合,而无需移动数据。

转换

BigQuery 的转换功能是使用 Dataform 构建的,Dataform 是一种使用 BigQuery 数据操纵语言 (DML) 协作构建、测试和记录 SQL 数据转换的工具。为了让您更轻松地转换数据,我们打造了两种利用 Dataform 的强大体验:

AI 赋能的数据转换BigQuery 数据准备(预览版)可提供智能建议,帮助您清理、转换和丰富数据,从而减少数据准备任务所需的时间和精力。

基于 SQL 的可视化数据转换BigQuery 工作流(预览版)提供可视化用户体验,可交互式地构建简单的工作流。

大规模数据迁移

除了上述模式之外,迁移到 Google Cloud 还可能涉及从现有数据仓库向 BigQuery 大规模迁移数据。 BigQuery Migration Service  是一项全托管式服务,可让客户将现有数据仓库加载到 BigQuery 中,以便进一步分析数据。

将数据导入 BigQuery

BigQuery 与 ELT 的数据集成路径。

提取和加载

解决方案

批量加载BigQuery Data Transfer Service (DTS) 可自动将数据从受支持的数据源批量加载到 BigQuery 中。

流式加载: Pub/Sub BigQuery 订阅会在收到 Pub/Sub 消息时将其写入现有 BigQuery 表。

变更数据捕获 (CDC)Datastream 可从数据库将非侵入性变更数据捕获 (CDC) 导入 BigQuery。

与外部数据源联合:BigQuery 支持与多个外部数据源联合,而无需移动数据。

转换

解决方案

BigQuery 的转换功能是使用 Dataform 构建的,Dataform 是一种使用 BigQuery 数据操纵语言 (DML) 协作构建、测试和记录 SQL 数据转换的工具。为了让您更轻松地转换数据,我们打造了两种利用 Dataform 的强大体验:

AI 赋能的数据转换BigQuery 数据准备(预览版)可提供智能建议,帮助您清理、转换和丰富数据,从而减少数据准备任务所需的时间和精力。

基于 SQL 的可视化数据转换BigQuery 工作流(预览版)提供可视化用户体验,可交互式地构建简单的工作流。

大规模数据迁移

解决方案

除了上述模式之外,迁移到 Google Cloud 还可能涉及从现有数据仓库向 BigQuery 大规模迁移数据。 BigQuery Migration Service  是一项全托管式服务,可让客户将现有数据仓库加载到 BigQuery 中,以便进一步分析数据。

工作方式

BigQuery 为数据工程师和应用开发者提供了丰富的产品和功能组合,可帮助构建、安排和管理流水线。丰富的产品组合让您可以灵活地在 ETL 和 ELT 范式之间进行选择。


ETL 与 ELT
观看此视频,了解 ELT 和 ETL 之间的区别

常见用途

使用 BigQuery 进行端到端数据集成

数据集成架构

BigQuery 是一个支持 AI 的统一数据平台,可让您将所有企业数据与 AI 相连。BigQuery 通过批量、流式或变更数据捕获 (CDC) 方式从各种来源(消息传递、数据库等)注入数据。BigQuery 通过 AI 赋能的转换层和统一的分析用户体验来存储、计算和管理数据。


BigQuery 数据集成架构

    数据集成架构

    BigQuery 是一个支持 AI 的统一数据平台,可让您将所有企业数据与 AI 相连。BigQuery 通过批量、流式或变更数据捕获 (CDC) 方式从各种来源(消息传递、数据库等)注入数据。BigQuery 通过 AI 赋能的转换层和统一的分析用户体验来存储、计算和管理数据。


    BigQuery 数据集成架构

      构建 ELT 流水线

      使用 Google Cloud 构建可扩缩的 ELT 流水线

      在 Google Cloud 上构建强大的 ELT 流水线:

      1. 选择数据源:本地、云应用或其他。
      2. 注入数据:使用 Datastream 进行实时注入,使用 BigQuery Data Transfer Service 进行完整加载。
      3. 转换数据:使用数据准备功能进行清理,或使用 Dataform 构建流水线。
      4. 使用 Looker Studio 直观呈现数据:创建报告和信息中心。

      这种设置可提供可伸缩性、实时功能和高效的数据转换,以便进行全面分析。

      构建 ELT 流水线架构

        使用 Google Cloud 构建可扩缩的 ELT 流水线

        在 Google Cloud 上构建强大的 ELT 流水线:

        1. 选择数据源:本地、云应用或其他。
        2. 注入数据:使用 Datastream 进行实时注入,使用 BigQuery Data Transfer Service 进行完整加载。
        3. 转换数据:使用数据准备功能进行清理,或使用 Dataform 构建流水线。
        4. 使用 Looker Studio 直观呈现数据:创建报告和信息中心。

        这种设置可提供可伸缩性、实时功能和高效的数据转换,以便进行全面分析。

        构建 ELT 流水线架构
          生成解决方案
          您想解决什么问题?
          What you'll get:
          分步指南
          参考架构
          可用的预构建解决方案
          此服务是使用 Vertex AI 构建的。您必须年满 18 周岁才能使用。请勿输入敏感信息、机密信息或个人信息。

          开始概念验证

          BigQuery 使用入门

          有一个大型项目?

          与 Google Cloud 的数据集成

          ETL 数据集成方法

          探索数据集成合作伙伴