概览
ELT(提取、加载和转换)是 Google Cloud 推荐的数据集成模式。ELT 涉及从源系统中提取数据,将其加载到 BigQuery 中,然后将其转换为所需的分析格式。ETL(提取、转换、加载)在将数据加载到数据仓库之前会对数据进行转换,而 ELT 方法与 ETL 不同,它让您可以充分利用 BigQuery 的强大功能来执行数据转换,并让任何 SQL 用户都能有效地开发数据集成流水线。
ELT 方法通过提供一个以数据为中心的熟悉框架,最大限度地缩短了学习曲线,从而加快了上市速度。ELT 还消除了对单独的 ETL 基础设施的需求,从而在加载前减少了与数据转换相关的费用。
BigQuery 的架构支持高可伸缩性和并行处理,可高效处理大型数据集和复杂的转换。ELT 通过将数据集中到 BigQuery 中来实现数据治理,从而实现平台内置的一致数据质量和安全政策。
BigQuery 支持各种数据源和格式,包括 Apache Iceberg,从而灵活地集成各种数据。除了数据选择的灵活性之外,语言选择也具有灵活性。ELT 的主要优势在于,SQL 适用于许多 SDLC 流水线。
将数据引入 BigQuery
| 将数据引入 BigQuery | BigQuery 与 ELT 的数据集成路径。 |
|---|---|
| 阶段 | 解决方案 |
提取和加载 | 批量加载:BigQuery Data Transfer Service (DTS) 可自动将数据从受支持的数据源批量加载到 BigQuery 中。 流式加载:Pub/Sub BigQuery 订阅会在收到 Pub/Sub 消息时将其写入现有 BigQuery 表。 变更数据捕获 (CDC):Datastream 可实现从数据库到 BigQuery 的非侵入性变更数据捕获 (CDC)。 与外部数据源联合:BigQuery 支持与多个无需数据迁移的外部数据源联合。 |
转换 | BigQuery 的转换功能是使用 Dataform 构建的,Dataform 是一种使用 BigQuery 数据操纵语言 (DML) 协作构建、测试和记录 SQL 数据转换的工具。为了让您更轻松地转换数据,我们打造了两种利用 Dataform 的强大体验: AI 赋能的数据转换:BigQuery 数据准备(预览版)可提供智能建议,帮助您清理、转换和丰富数据,从而减少数据准备任务所需的时间和精力。 基于 SQL 的直观数据转换:BigQuery 工作流(预览版)提供直观的用户体验,可用于以交互方式构建简单的工作流。 |
大规模数据迁移 | 除了上述模式之外,迁移到 Google Cloud 可能还涉及将现有数据仓库中的大量数据迁移到 BigQuery。 BigQuery Migration Service 是一项全托管式服务,可让客户将现有数据仓库加载到 BigQuery 中,以便进一步分析数据。 |
将数据引入 BigQuery
BigQuery 与 ELT 的数据集成路径。
提取和加载
批量加载:BigQuery Data Transfer Service (DTS) 可自动将数据从受支持的数据源批量加载到 BigQuery 中。
流式加载:Pub/Sub BigQuery 订阅会在收到 Pub/Sub 消息时将其写入现有 BigQuery 表。
变更数据捕获 (CDC):Datastream 可实现从数据库到 BigQuery 的非侵入性变更数据捕获 (CDC)。
与外部数据源联合:BigQuery 支持与多个无需数据迁移的外部数据源联合。
转换
BigQuery 的转换功能是使用 Dataform 构建的,Dataform 是一种使用 BigQuery 数据操纵语言 (DML) 协作构建、测试和记录 SQL 数据转换的工具。为了让您更轻松地转换数据,我们打造了两种利用 Dataform 的强大体验:
AI 赋能的数据转换:BigQuery 数据准备(预览版)可提供智能建议,帮助您清理、转换和丰富数据,从而减少数据准备任务所需的时间和精力。
基于 SQL 的直观数据转换:BigQuery 工作流(预览版)提供直观的用户体验,可用于以交互方式构建简单的工作流。
大规模数据迁移
除了上述模式之外,迁移到 Google Cloud 可能还涉及将现有数据仓库中的大量数据迁移到 BigQuery。 BigQuery Migration Service 是一项全托管式服务,可让客户将现有数据仓库加载到 BigQuery 中,以便进一步分析数据。