数据加载、转换和导出简介

本文简要介绍了 BigQuery 中的以下数据集成功能:

  • 使用提取、加载和转换 (ELT) 方法或提取、转换和加载 (ETL) 方法在 BigQuery 中加载和转换数据。
  • 从 BigQuery 导出数据,以便在其他系统中应用数据分析洞见,也称为反向 ETL

从来源加载数据、转换数据,然后导出结果

加载和转换数据

通常,您需要在将数据加载到 BigQuery 之前或之后转换数据。以下部分介绍了数据集成的两种常用方法:ETL 和 ELT。

ELT 数据集成方法

使用提取、加载和转换方法时,您需要执行以下两个单独的步骤来实现数据集成:

  • 提取和加载数据
  • 转换数据

例如,您可以从 JSON 文件源中提取数据并将其加载到 BigQuery 表中。然后,您可以使用流水线提取字段并将其转换为目标表。

ELT 方法可以通过以下方式简化数据集成工作流:

  • 无需使用其他数据处理工具
  • 将通常复杂的数据集成流程拆分为两个易于管理的部分
  • 充分利用 BigQuery 的功能,大规模准备、转换和优化数据

提取和加载数据

在 ELT 数据集成方法中,您可以从数据源中提取数据,并使用任何受支持的加载或访问外部数据的方法将其加载到 BigQuery 中。

转换数据

将数据加载到 BigQuery 后,您可以使用以下工具准备和转换数据:

  • 如需协同构建、测试、记录和调度高级 SQL 数据转换流水线,请使用 Dataform
  • 对于按计划执行 SQL 代码或 Python 笔记本的较小数据转换工作流,请使用工作流(处于预览版)。
  • 如需清理数据以进行分析,请使用 AI 增强型数据准备(预览版)。

如需了解详情,请参阅转换简介

ETL 数据集成方法

在提取、转换和加载方法中,您需要在数据到达 BigQuery 之前提取和转换数据。如果您已经有数据转换流程,或者希望减少 BigQuery 中的资源用量,则此方法非常有用。

Cloud Data Fusion 有助于简化 ETL 流程。BigQuery 还可与将数据转换并加载到 BigQuery 中的第三方合作伙伴搭配使用。

导出数据

在 BigQuery 中处理和分析数据后,您可以导出结果,以便在其他系统中应用。BigQuery 支持以下导出操作:

  • 将查询结果导出到本地文件、Google 云端硬盘、Google 表格
  • 将表或查询结果导出到 Cloud Storage、Bigtable、Spanner 和 Pub/Sub

此过程称为“反向 ETL”。

如需了解详情,请参阅数据导出简介

后续步骤