概览
ELT(提取、加载、转换)是 Google Cloud 推荐的数据集成模式。ELT 涉及从源系统提取数据,将其加载到 BigQuery 中,然后将其转换为所需的格式以进行分析。ETL(提取、转换、加载)在将数据加载到数据仓库之前会对数据进行转换,而 ELT 方法与 ETL 不同,它让您可以充分利用 BigQuery 的强大功能来执行数据转换,并让任何 SQL 用户都能有效地开发数据集成流水线。
ELT 方法通过提供一个以数据为中心的熟悉框架,最大限度地缩短了学习曲线,从而加快了上市速度。ELT 还消除了对单独的 ETL 基础设施的需求,从而在加载前减少了与数据转换相关的费用。
BigQuery 的架构支持大规模扩容和并行处理,可高效处理大型数据集和复杂的转换。ELT 通过将数据集中到 BigQuery 中来实现数据治理,从而实现平台内置的一致数据质量和安全政策。
BigQuery 支持各种数据源和格式,包括 Apache Iceberg,它可灵活地集成各种数据。除了数据,语言选择也同样灵活。ELT 的一个主要好处是 SQL 适用于许多 SDLC 流水线。
将数据导入 BigQuery
| 将数据导入 BigQuery | BigQuery 与 ELT 的数据集成路径。 |
|---|---|
| 阶段 | 解决方案 |
提取和加载 | 批量加载:BigQuery Data Transfer Service (DTS) 可自动将数据从受支持的数据源批量加载到 BigQuery 中。 流式加载: Pub/Sub BigQuery 订阅会在收到 Pub/Sub 消息时将其写入现有 BigQuery 表。 变更数据捕获 (CDC):Datastream 可从数据库将非侵入性变更数据捕获 (CDC) 导入 BigQuery。 与外部数据源联合:BigQuery 支持与多个外部数据源联合,而无需移动数据。 |
转换 | BigQuery 的转换功能是使用 Dataform 构建的,Dataform 是一种使用 BigQuery 数据操纵语言 (DML) 协作构建、测试和记录 SQL 数据转换的工具。为了让您更轻松地转换数据,我们打造了两种利用 Dataform 的强大体验: AI 赋能的数据转换:BigQuery 数据准备(预览版)可提供智能建议,帮助您清理、转换和丰富数据,从而减少数据准备任务所需的时间和精力。 基于 SQL 的可视化数据转换:BigQuery 工作流(预览版)提供可视化用户体验,可交互式地构建简单的工作流。 |
大规模数据迁移 | 除了上述模式之外,迁移到 Google Cloud 还可能涉及从现有数据仓库向 BigQuery 大规模迁移数据。 BigQuery Migration Service 是一项全托管式服务,可让客户将现有数据仓库加载到 BigQuery 中,以便进一步分析数据。 |
将数据导入 BigQuery
BigQuery 与 ELT 的数据集成路径。
提取和加载
批量加载:BigQuery Data Transfer Service (DTS) 可自动将数据从受支持的数据源批量加载到 BigQuery 中。
流式加载: Pub/Sub BigQuery 订阅会在收到 Pub/Sub 消息时将其写入现有 BigQuery 表。
变更数据捕获 (CDC):Datastream 可从数据库将非侵入性变更数据捕获 (CDC) 导入 BigQuery。
与外部数据源联合:BigQuery 支持与多个外部数据源联合,而无需移动数据。
转换
BigQuery 的转换功能是使用 Dataform 构建的,Dataform 是一种使用 BigQuery 数据操纵语言 (DML) 协作构建、测试和记录 SQL 数据转换的工具。为了让您更轻松地转换数据,我们打造了两种利用 Dataform 的强大体验:
AI 赋能的数据转换:BigQuery 数据准备(预览版)可提供智能建议,帮助您清理、转换和丰富数据,从而减少数据准备任务所需的时间和精力。
基于 SQL 的可视化数据转换:BigQuery 工作流(预览版)提供可视化用户体验,可交互式地构建简单的工作流。
大规模数据迁移
除了上述模式之外,迁移到 Google Cloud 还可能涉及从现有数据仓库向 BigQuery 大规模迁移数据。 BigQuery Migration Service 是一项全托管式服务,可让客户将现有数据仓库加载到 BigQuery 中,以便进一步分析数据。
常见用途