資料載入簡介

本文件說明如何將資料載入 BigQuery。資料整合的兩種常見方法是擷取、載入和轉換 (ELT) 或擷取、轉換和載入 (ETL) 資料。

如要瞭解 ELT 和 ETL 方法的概略說明,請參閱載入、轉換及匯出資料簡介

載入或存取外部資料的方法

在 BigQuery 頁面中的「新增資料對話方塊中,您可以查看所有可用方法,將資料載入 BigQuery 或從 BigQuery 存取資料。請根據用途和資料來源選擇下列其中一個選項:

載入方法 說明
批次載入 這個方法適合從各種來源批次載入大量資料。

如要從 Cloud Storage 和其他支援的資料來源批次或增量載入資料,建議您使用 BigQuery 資料移轉服務

BigQuery 資料移轉服務可讓您安排載入工作,自動將資料載入管道至 BigQuery。您可以安排一次性或批次資料移轉作業,並以定期間隔 (例如每天或每月) 執行。為確保 BigQuery 資料隨時保持最新狀態,您可以監控及記錄移轉作業。

如要查看 BigQuery 資料移轉服務支援的資料來源清單,請參閱「支援的資料來源」。
串流負載 這個方法可讓您近乎即時地從訊息傳遞系統載入資料。

如要將資料串流至 BigQuery,您可以使用 Pub/Sub 中的 BigQuery 訂閱項目。Pub/Sub 可處理高吞吐量資料載入作業,並將資料載入 BigQuery。支援即時資料串流,可在資料產生時載入資料。詳情請參閱「BigQuery 訂閱」。
變更資料擷取 (CDC) 這個方法可讓您以近乎即時的方式,將資料從資料庫複製到 BigQuery。

Datastream 可透過近乎即時的複製功能,將資料庫中的資料串流至 BigQuery。Datastream 會運用 CDC 功能,追蹤及複製資料來源的資料列層級變更。

如需 Datastream 支援的資料來源清單,請參閱「來源」。
與外部資料來源整合 這個方法可讓您存取外部資料,而無須將資料載入 BigQuery。

BigQuery 支援透過 Cloud Storage 和聯合查詢存取特定外部資料來源。這個方法的好處是,您不必先載入資料,再轉換資料以供後續使用。您可以對外部資料執行 SELECT 陳述式,藉此執行轉換作業。

您也可以使用下列程式輔助方法載入資料:

載入方法 說明
批次載入 您可以建立載入工作,從 Cloud Storage 或本機檔案載入資料

如果來源資料變更頻率不高,或是您不需要持續更新結果,載入工作可能會是將資料載入 BigQuery 的較便宜、較不耗用資源的方式。

載入的資料可以是 Avro、CSV、JSON、ORC 或 Parquet 格式。您也可以使用 LOAD DATA SQL 陳述式建立載入工作。

SparkSpark 和各種ETL 合作夥伴等熱門開放原始碼系統,也支援將資料批次載入 BigQuery。
串流負載 如果您必須支援自訂串流資料來源,或是在以高吞吐量串流至 BigQuery 之前先對資料進行預處理,請使用 Dataflow

如要進一步瞭解如何從 Dataflow 載入至 BigQuery,請參閱「從 Dataflow 寫入 BigQuery」。

您也可以直接使用 BigQuery Storage Write API

Cloud Data Fusion 可協助您簡化 ETL 程序。BigQuery 也與可將資料轉換並載入至 BigQuery 的第三方合作夥伴合作。

您可以透過 BigQuery 建立外部連結,查詢儲存在 BigQuery 外部的資料,例如儲存在 Cloud Storage 或 Spanner 等 Google Cloud 服務,或是 Amazon Web Services (AWS) 或 Microsoft Azure 等第三方來源。這些外部連結會使用 BigQuery Connection API。詳情請參閱「連線簡介」。

其他取得資料的方式

您可以對資料執行查詢,不必自行將資料載入 BigQuery。以下各節將說明一些替代方案。

以下清單列出部分替代方案:

對公開資料執行查詢

公開資料集是儲存在 BigQuery 中並與大眾共用的資料集。詳情請參閱 BigQuery 公開資料集

對共用資料執行查詢

如要針對他人與您共用的 BigQuery 資料集執行查詢,請參閱「BigQuery 共用功能 (舊稱 Analytics Hub) 簡介」一文。Sharing 是可啟用資料共用功能的資料交換平台。

使用記錄檔資料執行查詢

您可以針對記錄檔執行查詢,而無需建立其他載入工作:

後續步驟