什麼是資料整合?

為因應大數據、物聯網 (IoT)、軟體式服務 (SaaS) 和雲端活動等方面的需求,全世界的資料來源呈現爆炸性成長,資料總量也急遽增加。但是,這些資料大多收集並儲存在獨立的資料孤島或個別的資料儲存庫中。資料整合是指探索、移動及合併多個來源的資料,從中獲取洞察資訊,然後用於機器學習和進階數據分析程序。  

在企業推展數位轉型策略的過程中,資料整合尤為重要,因為您必須從所有資料中提取出洞察資訊,才有助於改善營運、提高顧客滿意度,並在日益數位化的世界中保持競爭力。

Google Cloud 的資料整合解決方案包含一套鬆耦合但緊密整合的服務,包括:

  • Cloud Data Fusion:全代管的雲端原生資料整合服務,可協助使用者有效率地建構及管理 ETL/ELT 資料管道。
  • Cloud Composer:以 Apache Airflow 為基礎建構的全代管工作流程自動化調度管理服務,可管理及自動化調度管理端對端資料和程序生命週期
  • Datastream:易於使用的無伺服器變更資料擷取和複製服務
  • Dataplex:智慧型 data fabric,可大規模探索、管理、監控及控管分散的資料
  • Dataflow:全代管的串流分析服務,可將延遲時間、處理時間和費用降到最低
  • Pub/Sub:一種可擴充的非同步訊息服務,用於串流分析和資料整合管道
  • Dataproc:全代管 Spark 和 Hadoop 服務,用於批次處理、查詢、串流和機器學習

資料整合的定義

資料整合是指將不同來源的資料彙整在一起,為資料提供能創造更高價值的統合檢視方式,進而改善企業的決策速度和品質。

資料整合可以整併所有類型的資料 (結構化、非結構化、批次和串流等),有利於完成難易度不同的工作,從庫存資料庫的基本查詢,到複雜的預測分析都不成問題。

資料整合的挑戰有哪些?

資料整合平台使用困難

經驗豐富的資料專業人士難以覓得,且薪資極高,但多數資料整合平台的部署作業又不得不借重他們的才能。需要存取資料才能做出業務決策的企業分析師往往必須依賴這些專家。從企業來源整合資料通常需要花費 6 個月的時間,因此無法迅速藉由資料分析創造價值。

大規模管理資料是一大難題

機構要讓高品質可供輕鬆發掘及存取,以便用於數據分析,往往困難重重。隨著資料來源和資料孤島的數量增加,企業必須做出取捨:該在資料孤島之間移動及複製資料,以便用於進階數據分析;還是該讓資料分散各處,可是又缺乏靈活彈性。

透過多種提交方式整合資料

客戶對於在單一平台上使用多種提交方式 (例如批次、串流和事件) 的需求日增。隨著越來越多業務層面建立數位追蹤記錄,機構也希望運用即時資料整合與分析來提升業務成效。

資料語意問題

代表同一事物的資料可能因採用不同的分類或格式,而產生多個版本。例如,日期可以數字形式 dd/mm/yy 或「月日年」格式儲存。ETL 中的「轉換」元件和主要資料管理工具可以克服這個難題。

資料整合基礎架構的資本支出和營運支出都很高

採購、部署、維護及管理企業級資料整合計畫所需的基礎架構時,必須同時負擔資本和營運支出,而雲端式資料整合代管服務可以直接解決這方面的成本問題。

資料與應用程式緊密結合

以往資料都綁定並依附於特定的應用程式,因此無法擷取到企業的其他位置使用。如今,我們看到應用程式已和資料層脫鉤,因此可以更靈活地運用資料。

透過 Google Cloud 解決業務難題

新客戶可以獲得價值 $300 美元的免費抵免額,盡情試用各項 Google Cloud 功能。
與 Google Cloud 銷售專員聯絡,深入探討貴公司面臨的獨特挑戰。

資料整合工具有哪些?

資料整合平台通常會提供許多工具,其中包括:

  • 資料擷取工具:這類工具能讓您取得及匯入資料立即使用,也可儲存起來供日後使用。
  • ETL 工具:ETL 是擷取 (extract)、轉換 (transform) 和載入 (load) 的英文縮寫,這是最常見的資料整合方法。
  • 資料目錄:這些目錄可以幫助企業尋找及清查分散在多個資料孤島中的資料資產
  • 資料治理工具:這類工具可確保資料的正常供應、安全性、可用性和完整性
  • 資料清理工具:這類工具可透過替換、修改或刪除的方式清理品質不佳的資料
  • 資料遷移工具:這類工具可在電腦、儲存系統或應用程式格式之間移動資料
  • 主要資料管理工具:這類工具可以協助企業遵循通用資料定義,並實現單一可靠來源的目標
  • 資料連接器:這類工具可在不同資料庫之間移動資料,還可以執行轉換

資料整合的用途有哪些?

資料整合常見的用途如下:

人工智慧 (AI) 與機器學習 (ML)

資料整合可彙整高品質的資料,為機器學習模型提供必要支援,因此是 AI 和機器學習的基礎。

Data warehousing

資料整合可將各種來源的資料彙整到資料倉儲中,以便進行業務分析。

開發 data lake

資料整合可將資料從孤立的地端部署平台移至資料湖泊,以便對資料執行進階數據分析和 AI 技術,輕鬆擷取其中的價值。

雲端遷移和資料庫複製

資料整合是確保順利移轉至雲端的關鍵要素。資料移轉服務、資料連接器、CDC 工具和 ETL 工具分別提供了不同的選項,讓機構可在營運不中斷的情況下,順利遷移至雲端。  

IoT

資料整合能將多個 IoT 來源的資料集中在單一位置,以利從中發掘價值。

即時智慧功能

資料整合功能包含串流和事件擷取等用途,可應用於即時預測和建議。  

展開下一步行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品,開始在 Google Cloud 中建構產品與服務。