什麼是 ETL?

ETL 是擷取 (extract)、轉換 (transform) 和載入 (load) 的英文縮寫,組織過去使用這個方式,將多個系統中的資料整合到單一資料庫、資料儲存庫、data warehouse 或 data lake 中。ETL 可以用來儲存舊版資料,目前更常用於匯總資料,以便進行分析和制定業務決策。  

機構使用 ETL 已有數十年之久,但最新的發展是,資料來源以及目標資料庫目前已紛紛遷移到雲端。

此外,也出現了串流 ETL 管道,現已連同批次管道整合在一起;亦即串流管道會即時處理連續資料串流,批次管道則會處理匯總批次的資料。有些企業會混用批次補充作業或重新處理 pipeline,執行連續串流處理。

瞭解支援 ETL 的 Google Cloud 服務產品組合,包括 BigQuery 資料移轉服務DataflowDataform

準備好了嗎?新客戶可以獲得價值 $300 美元的免費抵免額,盡情試用 Google Cloud 的各項功能。

影片:運用 Dataflow 即時執行 ETL 和整合作業
運用 Dataflow 即時執行 ETL 和整合作業

ETL 的定義

ETL 是端對端的程序,公司利用此程序獲取全部資料 (結構化、非結構化,由世界各地任何數量的團隊管理),並使資料達到實際可用於業務目的的狀態。

當今現代化的 ETL 解決方案必須能因應不斷增加的資料量和速度。此外,現在企業 ETL 解決方案的最基本要求,就是可以即時擷取、充實和管理任何來源 (無論是地端部署還是雲端) 的交易,並且能同時支援結構化和非結構化資料。

ETL 的重要性

數十年來,ETL (擷取、轉換、載入) 一直都是資料整合的基礎,即使在現代資料架構中,仍然扮演著重要角色。ETL 具備多項潛在優勢:

  • 資料品質:ETL 程序包含清理和轉換步驟,因此通常能提升資料品質和一致性
  • 資料治理:ETL 可確保資料以一致且符合規範的方式轉換並載入目標系統,有助於落實資料治理政策
  • 舊版系統:ETL 常用於整合舊版系統的資料,這些系統可能無法與現代資料架構相容
  • 複雜的轉換:ETL 工具通常提供多種轉換功能,因此很適合用來處理複雜的資料操控工作

雲端式 ETL 如何運作

擷取

擷取是從一或多個來源 (線上、地端部署、舊版、SaaS 等) 擷取資料的程序。擷取後,資料將載入暫存區中。

轉換

轉換需要獲取資料、清理資料並將其轉換為通用格式,以便儲存在目標資料庫、資料儲存庫、資料倉儲或資料湖泊中。清除通常需要取出重複、不完整或明顯錯誤的記錄。

載入中

載入是將格式化後的資料插入目標資料庫、資料儲存庫、資料倉儲或資料湖泊的程序。

比較 ETL 與 ELT

ETL 和 ELT 都是資料整合方法,但兩者主要的差異在於資料轉換的時間點。ETL 處理資料的方式是先轉換,再載入目的地系統,ELT 則是先將資料以原始格式載入目標系統,然後再轉換。

該選擇 ETL 或 ELT 取決於多項因素,包括:

  • 資料量:ELT 能運用 cloud data warehouse 的處理能力,因此通常較適合用來處理大量資料
  • 資料複雜度:如果轉換作業較為複雜,需要專業工具和知識,通常會使用 ETL
  • 目標系統:ELT 最適合用於具備轉換處理能力的雲端式 data warehouse 和 data lake
  • 技能和資源:ETL 需搭配專業技能和資源,才能建構及維護轉換 pipeline。ELT 可運用 cloud data warehouse 的資源,因此實作上可能較為簡便。

透過 Google Cloud 解決業務難題

新客戶可以獲得價值 $300 美元的免費抵免額,盡情試用各項 Google Cloud 功能。
與 Google Cloud 銷售專員聯絡,深入探討貴公司面臨的獨特挑戰。

ETL 用途

ETL 是將所有相關資料集中在一起,使資料可做為行動依據的一種重要方法。這些資料會經過分析,再讓高層主管、經理和其他利害關係人依據分析結果,做出明智的業務決策。 ETL 的常見用途如下:

Data warehousing

資料倉儲是一種資料庫,各種來源的資料會合併其中,進行整體分析並用於業務目的。ETL 常用於將資料移至資料倉儲。

機器學習與人工智慧

機器學習 (ML) 是一種理解資料的方法,這種方法無需明確編寫數據分析模型的程式,而是由採用人工智慧技術的系統從資料中學習。您可以針對機器學習目的,使用 ETL 將資料移到單一位置。

行銷資料整合

行銷資料整合需要將所有行銷資料 (例如客戶統計資料、社群網路和網站分析資料) 移到同一位置,以便進行分析並制定未來行動方案。ETL 會用於收集和準備行銷資料。

IoT 資料整合

IoT 是連線裝置的集合,這些裝置能透過嵌入硬體的感應器收集和傳輸資料。IoT 裝置包括工廠設備、網路伺服器、智慧型手機或各式各樣的其他機器,甚至是穿戴式裝置和植入裝置。ETL 有助於將多個 IoT 來源的資料移至可以進行分析的單一位置。

資料庫複製

資料庫複製會從來源資料庫 (例如 Oracle、MySQL 適用的 Cloud SQL、Microsoft SQL Server、PostgreSQL 適用的 Cloud SQL、MongoDB 或其他資料庫) 取得資料,然後複製到雲端資料倉儲系統中。這可以是一次性作業,也可以是隨著資料更新而持續進行的程序,且 ETL 可以用於複製資料。

雲端遷移

公司紛紛將 on-premises 環境中的資料和應用程式遷移到雲端,藉此節省費用、提高應用程式的擴充性並維護資料安全,同時運用 AI 創新技術,而 ETL 常用於執行這類遷移作業。

展開下一步行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品,開始在 Google Cloud 中建構產品與服務。