為因應大數據、物聯網 (IoT)、軟體式服務 (SaaS) 和雲端活動等方面的需求,全世界的資料來源呈現爆炸性成長,資料總量也急遽增加。但是,這些資料大多收集並儲存在獨立的資料孤島或個別的資料儲存庫中。資料整合是指探索、移動及合併多個來源的資料,從中獲取洞察資訊,然後用於機器學習和進階數據分析程序。
在企業推展數位轉型策略的過程中,資料整合尤為重要,因為您必須從所有資料中提取出洞察資訊,才有助於改善營運、提高顧客滿意度,並在日益數位化的世界中保持競爭力。
Google Cloud 的資料整合解決方案包含一套鬆耦合但緊密整合的服務,包括:
資料整合是指將不同來源的資料彙整在一起,為資料提供能創造更高價值的統合檢視方式,進而改善企業的決策速度和品質。
資料整合可以整併所有類型的資料 (結構化、非結構化、批次和串流等),有利於完成難易度不同的工作,從庫存資料庫的基本查詢,到複雜的預測分析都不成問題。
資料整合平台使用困難
經驗豐富的資料專業人士難以覓得,且薪資極高,但多數資料整合平台的部署作業又不得不借重他們的才能。需要存取資料才能做出業務決策的企業分析師往往必須依賴這些專家。從企業來源整合資料通常需要花費 6 個月的時間,因此無法迅速藉由資料分析創造價值。
大規模管理資料是一大難題
機構要讓高品質可供輕鬆發掘及存取,以便用於數據分析,往往困難重重。隨著資料來源和資料孤島的數量增加,企業必須做出取捨:該在資料孤島之間移動及複製資料,以便用於進階數據分析;還是該讓資料分散各處,可是又缺乏靈活彈性。
透過多種提交方式整合資料
客戶對於在單一平台上使用多種提交方式 (例如批次、串流和事件) 的需求日增。隨著越來越多業務層面建立數位追蹤記錄,機構也希望運用即時資料整合與分析來提升業務成效。
資料語意問題
代表同一事物的資料可能因採用不同的分類或格式,而產生多個版本。例如,日期可以數字形式 dd/mm/yy 或「月日年」格式儲存。ETL 中的「轉換」元件和主要資料管理工具可以克服這個難題。
資料整合基礎架構的資本支出和營運支出都很高
採購、部署、維護及管理企業級資料整合計畫所需的基礎架構時,必須同時負擔資本和營運支出,而雲端式資料整合代管服務可以直接解決這方面的成本問題。
資料與應用程式緊密結合
以往資料都綁定並依附於特定的應用程式,因此無法擷取到企業的其他位置使用。如今,我們看到應用程式已和資料層脫鉤,因此可以更靈活地運用資料。
資料整合平台通常會提供許多工具,其中包括:
資料整合常見的用途如下:
人工智慧 (AI) 與機器學習 (ML)
資料整合可彙整高品質的資料,為機器學習模型提供必要支援,因此是 AI 和機器學習的基礎。
Data warehousing
資料整合可將各種來源的資料彙整到資料倉儲中,以便進行業務分析。
開發 data lake
資料整合可將資料從孤立的地端部署平台移至資料湖泊,以便對資料執行進階數據分析和 AI 技術,輕鬆擷取其中的價值。
雲端遷移和資料庫複製
資料整合是確保順利移轉至雲端的關鍵要素。資料移轉服務、資料連接器、CDC 工具和 ETL 工具分別提供了不同的選項,讓機構可在營運不中斷的情況下,順利遷移至雲端。
IoT
資料整合能將多個 IoT 來源的資料集中在單一位置,以利從中發掘價值。
即時智慧功能
資料整合功能包含串流和事件擷取等用途,可應用於即時預測和建議。