概览
ELT(提取、加载、转换)是 Google Cloud 推荐的数据集成模式。ELT 涉及从源系统提取数据,将其加载到 BigQuery 中,然后将其转换为所需的格式以进行分析。ETL(提取、转换、加载)在将数据加载到数据仓库之前会对数据进行转换,而 ELT 方法与 ETL 不同,它让您可以充分利用 BigQuery 的强大功能来执行数据转换,并让任何 SQL 用户都能有效地开发数据集成流水线。
ELT 方法通过提供一个以数据为中心的熟悉框架,最大限度地缩短了学习曲线,从而加快了上市速度。ELT 还消除了对单独的 ETL 基础设施的需求,从而在加载前减少了与数据转换相关的费用。
BigQuery 的架构支持大规模扩容和并行处理,可高效处理大型数据集和复杂的转换。ELT 通过将数据集中到 BigQuery 中来实现数据治理,从而实现平台内置的一致数据质量和安全政策。
BigQuery 支持各种数据源和格式,包括 Apache Iceberg,它可灵活地集成各种数据。除了数据,语言选择也同样灵活。ELT 的一个主要好处是 SQL 适用于许多 SDLC 流水线。
将数据导入 BigQuery
将数据导入 BigQuery | BigQuery 与 ELT 的数据集成路径。 |
---|---|
阶段 | 解决方案 |
提取和加载 | 批量加载:BigQuery Data Transfer Service (DTS) 可自动将数据从受支持的数据源批量加载到 BigQuery 中。 流式加载: Pub/Sub BigQuery 订阅会在收到 Pub/Sub 消息时将其写入现有 BigQuery 表。 变更数据捕获 (CDC):Datastream 可从数据库将非侵入性变更数据捕获 (CDC) 导入 BigQuery。 与外部数据源联合:BigQuery 支持与多个外部数据源联合,而无需移动数据。 |
转换 | BigQuery 的转换功能是使用 Dataform 构建的,Dataform 是一种使用 BigQuery 数据操纵语言 (DML) 协作构建、测试和记录 SQL 数据转换的工具。为了让您更轻松地转换数据,我们打造了两种利用 Dataform 的强大体验: AI 赋能的数据转换:BigQuery 数据准备(预览版)可提供智能建议,帮助您清理、转换和丰富数据,从而减少数据准备任务所需的时间和精力。 基于 SQL 的可视化数据转换:BigQuery 工作流(预览版)提供可视化用户体验,可交互式地构建简单的工作流。 |
大规模数据迁移 | 除了上述模式之外,迁移到 Google Cloud 还可能涉及从现有数据仓库向 BigQuery 大规模迁移数据。 BigQuery Migration Service 是一项全托管式服务,可让客户将现有数据仓库加载到 BigQuery 中,以便进一步分析数据。 |
将数据导入 BigQuery
BigQuery 与 ELT 的数据集成路径。
提取和加载
批量加载:BigQuery Data Transfer Service (DTS) 可自动将数据从受支持的数据源批量加载到 BigQuery 中。
流式加载: Pub/Sub BigQuery 订阅会在收到 Pub/Sub 消息时将其写入现有 BigQuery 表。
变更数据捕获 (CDC):Datastream 可从数据库将非侵入性变更数据捕获 (CDC) 导入 BigQuery。
与外部数据源联合:BigQuery 支持与多个外部数据源联合,而无需移动数据。
转换
BigQuery 的转换功能是使用 Dataform 构建的,Dataform 是一种使用 BigQuery 数据操纵语言 (DML) 协作构建、测试和记录 SQL 数据转换的工具。为了让您更轻松地转换数据,我们打造了两种利用 Dataform 的强大体验:
AI 赋能的数据转换:BigQuery 数据准备(预览版)可提供智能建议,帮助您清理、转换和丰富数据,从而减少数据准备任务所需的时间和精力。
基于 SQL 的可视化数据转换:BigQuery 工作流(预览版)提供可视化用户体验,可交互式地构建简单的工作流。
大规模数据迁移
除了上述模式之外,迁移到 Google Cloud 还可能涉及从现有数据仓库向 BigQuery 大规模迁移数据。 BigQuery Migration Service 是一项全托管式服务,可让客户将现有数据仓库加载到 BigQuery 中,以便进一步分析数据。
常见用途