数据加载、转换和导出简介
本文简要介绍了 BigQuery 中的以下数据集成功能:
- 使用提取、加载和转换 (ELT) 方法或提取、转换和加载 (ETL) 方法在 BigQuery 中加载和转换数据。
- 从 BigQuery 导出数据,以便在其他系统中应用数据分析洞见,也称为反向 ETL。
加载和转换数据
通常,您需要在将数据加载到 BigQuery 之前或之后转换数据。以下部分介绍了数据集成的两种常用方法:ETL 和 ELT。
ELT 数据集成方法
使用提取、加载和转换方法时,您需要执行以下两个单独的步骤来实现数据集成:
- 提取和加载数据
- 转换数据
例如,您可以从 JSON 文件源中提取数据并将其加载到 BigQuery 表中。然后,您可以使用流水线提取字段并将其转换为目标表。
ELT 方法可以通过以下方式简化数据集成工作流:
- 无需使用其他数据处理工具
- 将通常复杂的数据集成流程拆分为两个易于管理的部分
- 充分利用 BigQuery 的功能,大规模准备、转换和优化数据
提取和加载数据
在 ELT 数据集成方法中,您可以从数据源中提取数据,并使用任何受支持的加载或访问外部数据的方法将其加载到 BigQuery 中。
转换数据
将数据加载到 BigQuery 后,您可以使用以下工具准备和转换数据:
- 如需协同构建、测试、记录和调度高级 SQL 数据转换流水线,请使用 Dataform。
- 对于按计划执行 SQL 代码或 Python 笔记本的较小数据转换工作流,请使用工作流(处于预览版)。
- 如需清理数据以进行分析,请使用 AI 增强型数据准备(预览版)。
如需了解详情,请参阅转换简介。
ETL 数据集成方法
在提取、转换和加载方法中,您需要在数据到达 BigQuery 之前提取和转换数据。如果您已经有数据转换流程,或者希望减少 BigQuery 中的资源用量,则此方法非常有用。
Cloud Data Fusion 有助于简化 ETL 流程。BigQuery 还可与将数据转换并加载到 BigQuery 中的第三方合作伙伴搭配使用。
导出数据
在 BigQuery 中处理和分析数据后,您可以导出结果,以便在其他系统中应用。BigQuery 支持以下导出操作:
- 将查询结果导出到本地文件、Google 云端硬盘、Google 表格
- 将表或查询结果导出到 Cloud Storage、Bigtable、Spanner 和 Pub/Sub
此过程称为“反向 ETL”。
如需了解详情,请参阅数据导出简介。
后续步骤
- 详细了解如何在 BigQuery 中加载数据。
- 详细了解如何在 BigQuery 中转换数据。
- 详细了解如何在 BigQuery 中导出数据。