ELT 是擷取 (extract)、載入 (load) 和轉換 (transform) 的簡稱。這是一種資料管道模型,會先從各種來源系統擷取資料。然後,原始資料不會在獨立的暫存區中轉換,而是直接載入目標資料儲存庫 (例如資料湖泊或雲端資料倉儲)。只有在資料載入目標系統後,才會套用轉換。
這個順序是 ELT 與前身 ETL (擷取、轉換、載入) 的不同之處,也是 ELT 在雲端原生架構中日益普及的主要原因。
ELT 程序流程可充分發揮現代化資料儲存和處理平台的效能和擴充性。接下來,我們將詳細介紹各個要素:
ELT 程序的優點是,在載入資料前,轉換作業並未固定,因此具備彈性。舉例來說,數據資料學家可以存取原始資料,探索未曾預料的模式或進行臨時分析,而商業智慧團隊則能建立已收錄和轉換後的資料集,來製作報表。
ELT 方法具備多項潛在優勢,尤其在處理大量資料和多種資料類型的環境中,更能發揮效用:
雖然 ELT 有許多優點,但組織在採用時也應考量以下幾點:
主動解決這些難題,有助於組織充分發揮 ELT 模式的優勢。
如要選擇合適的資料整合策略,就必須瞭解 ELT 和較傳統的 ETL (擷取、轉換、載入) 程序之間的差異。兩者的主要差異在於轉換步驟發生的時間和位置。
功能 | ELT (擷取、載入、轉換) | ETL (擷取、轉換、載入) |
作業順序 | 擷取、載入、轉換 | 擷取、轉換、載入 |
轉換位置 | 在目標資料儲存庫 (資料倉儲/資料湖泊) 內 | 在獨立的暫存區或 ETL 工具環境中 |
已載入至目標的資料 | 原始、未轉換資料 | 經過清理、結構化及轉換的資料 |
處理功能 | 運用目標資料儲存庫的強大功能 | 需要專用的 ETL 引擎或測試環境伺服器 |
資料擷取速度 | 通常能更快首次載入資料 | 由於需要預先處理轉換作業,因此速度可能較慢 |
對新運用方式的彈性 | 高,因為可使用原始資料來重新轉換 | 較低,因為已預先定義轉換 |
結構定義處理 | 適合用於讀取時建立結構定義 | 通常仰賴寫入時建立結構定義 |
資料類型適切性 | 非常適合處理結構化、半結構化和非結構化資料 | 最適合結構化資料和部分半結構化資料 |
資源使用率 | 充分發揮可擴充雲端資料倉儲的效益 | 轉換作業可能需要個別基礎架構 |
功能
ELT (擷取、載入、轉換)
ETL (擷取、轉換、載入)
作業順序
擷取、載入、轉換
擷取、轉換、載入
轉換位置
在目標資料儲存庫 (資料倉儲/資料湖泊) 內
在獨立的暫存區或 ETL 工具環境中
已載入至目標的資料
原始、未轉換資料
經過清理、結構化及轉換的資料
處理功能
運用目標資料儲存庫的強大功能
需要專用的 ETL 引擎或測試環境伺服器
資料擷取速度
通常能更快首次載入資料
由於需要預先處理轉換作業,因此速度可能較慢
對新運用方式的彈性
高,因為可使用原始資料來重新轉換
較低,因為已預先定義轉換
結構定義處理
適合用於讀取時建立結構定義
通常仰賴寫入時建立結構定義
資料類型適切性
非常適合處理結構化、半結構化和非結構化資料
最適合結構化資料和部分半結構化資料
資源使用率
充分發揮可擴充雲端資料倉儲的效益
轉換作業可能需要個別基礎架構
ELT 是 Google Cloud 建議的資料整合模式。ELT 的做法是從來源系統擷取資料,然後載入 BigQuery,再將資料轉換成所需格式進行分析。ELT 方法可讓您透過 BigQuery 的完整功能執行資料轉換,並讓任何 SQL 使用者都能有效率地開發資料整合管道。而與此不同的是,ETL (擷取、轉換、載入) 則是在資料載入資料倉儲之前,就轉換資料。
該選擇 ELT 或 ETL 通常取決於特定用途、現有基礎架構、資料量和組織的分析需求。在許多現代資料架構中,可能會採用混合做法,在管道的不同部分同時使用 ELT 和 ETL。
ELT 模式在各種現代資料情境中特別有效:
雲端資料倉儲
ELT 非常適合 Google Cloud 的 BigQuery 等雲端資料平台,因為這些平台具備強大的處理能力和擴充性,可有效率地處理大型資料集的轉換作業。
大數據資料分析
當您需要處理大量、高速流入且種類繁多的資料時,ELT 可讓您快速將資料擷取至資料湖泊或可擴充的儲存空間。接著,您可以使用分散式處理框架,視需要套用轉換。
資料湖泊導入
資料湖泊是用來以原生格式儲存大量原始資料的工具。ELT 程序會載入這些原始資料,然後各種分析和處理引擎就能轉換及使用這些資料。
即時或近乎即時的資料處理
如果用途需要快速存取最新資料,ELT 可以加快載入階段的速度。接著,您可以針對這類資料的子集,執行特定近乎即時的資訊主頁或應用程式轉換。
探索性資料分析和資料科學作業
數據資料學家通常偏好存取未經轉換的原始資料,來執行特徵工程、建立機器學習模型,以及發掘深入分析結果,而不會受到預先定義轉換的限制。ELT 可讓這些原始資料隨時可供使用。
整合多種資料來源
當您要整合來自多個不同結構的系統的資料時,ELT 會先將所有資料載入中央位置,然後透過轉換來統合資料,簡化初始擷取程序。
Google Cloud 提供一套完整的服務,可協助您最佳化 ELT 架構,讓組織能建構穩固且可擴充的資料管道。重點在於使用 BigQuery 等強大的服務,進行資料庫內轉換作業。
以下是 Google Cloud 服務在 ELT 模式中的常見用途:
Google Cloud 基礎架構提供原始資料的可擴充儲存空間、快速載入功能,以及 BigQuery 內的強大引擎,可有效率地執行轉換作業,符合 ELT 的核心原則。這項功能可讓資料工程師在代管的無伺服器環境中建構管道,快速接收資料,並依據特定分析需求加以修正。