資料載入、轉換及匯出簡介
本文件說明資料整合方法,可在 BigQuery 中使用「擷取、載入及轉換」(ELT) 或「擷取、轉換及載入」(ETL) 程序,載入及轉換資料。並說明如何從 BigQuery 匯出資料,以便在其他系統中套用洞察資料,這稱為「反向 ETL」。
決定要使用 ELT 還是 ETL
通常會在將資料載入 BigQuery 前或後轉換資料。您必須做出的基本決定,是先轉換資料再載入 BigQuery (擷取-轉換-載入或 ETL 方法),還是先將原始資料載入 BigQuery,再使用 BigQuery 執行轉換 (擷取-載入-轉換或 ELT 方法)。
下圖顯示將資料整合至 BigQuery 的各種選項,包括使用 ELT 或 ETL。
一般來說,我們會建議多數客戶採用 ELT 做法。ELT 工作流程會將複雜的資料整合作業分成兩個可控部分:擷取與載入,然後轉換。使用者可以選擇符合需求的多種資料載入方法。資料載入 BigQuery 後,熟悉 SQL 的使用者就能使用 Dataform 等工具開發轉換管道。
以下各節將詳細說明每個工作流程。
載入及轉換資料
通常會在將資料載入 BigQuery 前或後轉換資料。以下各節將說明兩種常見的資料整合方法:ETL 和 ELT。
ELT 資料整合方法
使用擷取-載入-轉換 (ELT) 方法時,您會在兩個獨立步驟中執行資料整合作業:
- 擷取及載入資料
- 轉換資料
舉例來說,您可以從 JSON 檔案來源擷取資料,並將資料載入 BigQuery 資料表。接著,您可以使用管道將欄位擷取及轉換為目標資料表。
ELT 方法可透過以下方式簡化資料整合工作流程:
- 不必使用其他資料處理工具
- 將經常複雜的資料整合程序分成兩個可管理的部分
- 充分運用 BigQuery 的功能,大規模地準備、轉換及最佳化資料
擷取及載入資料
在 ELT 資料整合方法中,您可以從資料來源擷取資料,然後使用任何支援的載入或存取外部資料的方法,將資料載入 BigQuery。
在 BigQuery 中轉換資料
將資料載入 BigQuery 後,您可以使用下列工具準備及轉換資料:
- 如要共同建構、測試、記錄及排定進階 SQL 資料轉換管道,請使用 Dataform。
- 如果是執行 SQL 程式碼、Python 筆記本或資料準備作業的較小資料轉換工作流程,請使用 BigQuery 管道。
- 如要清理資料以利分析,請使用 AI 輔助的資料準備工具。
每個工具都由 Dataform API 提供支援。
詳情請參閱「轉換簡介」。
ETL 資料整合方法
在擷取-轉換-載入 (ETL) 方法中,您會在資料傳送至 BigQuery 之前,先擷取及轉換資料。如果您已建立資料轉換程序,或是希望減少 BigQuery 中的資源使用量,這種做法就很實用。
Cloud Data Fusion 可協助您簡化 ETL 程序。BigQuery 也與可將資料轉換並載入至 BigQuery 的第三方合作夥伴合作。
正在匯出資料
在 BigQuery 中處理及分析資料後,您可以匯出結果,並在其他系統中套用。BigQuery 支援下列匯出作業:
- 將查詢結果匯出至本機檔案、Google 雲端硬碟、Google 試算表
- 將資料表或查詢結果匯出至 Cloud Storage、Bigtable、Spanner 和 Pub/Sub
這項程序稱為反向 ETL。
詳情請參閱「BigQuery 資料匯出簡介」。
後續步驟
- 進一步瞭解如何在 BigQuery 中載入資料。
- 進一步瞭解如何在 BigQuery 中轉換資料。
- 進一步瞭解如何在 BigQuery 匯出資料。