什麼是資料處理?

資料處理是指將原始資料 (例如數字、文字、圖片或感應器讀數) 轉換成更加有用、容易理解及高價值的形式,通常稱為資訊。這是將原始資料轉化為可做為行動依據的洞察資料的核心引擎,是現代企業、進階分析和人工智慧 (AI) 系統的重要功能。

資料處理週期

無論是處理小型試算表,還是大量資料,都必須遵循標準且可重複的程序,即「資料處理週期」。

資料處理週期是 ETL (擷取、轉換、載入) 等常見資料整合架構的基礎,瞭解這個週期將有助於您建構高效率且可靠的資料工作流程。

  1. 收集:收集原始資料。這就是週期的開始。您從各種來源收集原始資料,包括網站記錄、顧客問卷調查、感應器讀數和金融交易數據等。這個階段也可能需要使用變更資料擷取 (CDC) 等特殊技術,直接從來源資料庫有效率地串流任何資料異動。
  2. 準備/清理:轉換原始資料。這個重要步驟通常稱為資料預先處理,包括清理和整理原始資料,像是處理遺漏值、修正錯誤、移除重複資料,以及將資料轉換為與處理器相容的格式。處理器是專門用來分析資料集的引擎。
  3. 輸入:將準備好的資料提供給處理器。清理及準備好的資料會輸入處理系統。這個系統代表更廣泛的環境 (例如雲端服務、電腦程式或 AI 模型),其中包含上一步定義的特定處理器邏輯。
  4. 處理:執行演算法。在這個階段,系統會實際執行計算、操作和轉換作業。電腦或系統會執行特定演算法和規則,以達成預期結果,例如排序資料、執行數學運算或合併不同資料集。
  5. 輸出/解讀:呈現結果。處理結果會以實用且易讀的格式呈現,輸出形式可以是報表、圖表、更新後的資料庫、傳送給使用者的警告,或是訓練 AI 模型。
  6. 儲存:封存已處理的資料。最後,原始輸入資料和處理後的資訊都會安全儲存,供日後使用、稽核或進一步分析。這是維持資料治理和歷來資料的重要步驟。

現代資料處理的優點

高效、現代化的資料處理方式,能創造強大且可量化的優勢。

清理和準備步驟可減少錯誤、冗餘和不一致的情況。這些步驟能提升資料集的品質,分析起來更加可靠。

舉例來說,零售連鎖店可以處理數百間分店的庫存資料,移除重複項目,確保不會意外訂購架上已有的商品。

處理作業會將原始資料轉為簡明易懂的資訊,技術主管和決策者可以運用這些可靠證據更快做出明智的選擇。

假設客服中心經理監控已處理資料的平均等待時間,如果資料顯示每週二下午 2 點都會出現高峰,經理就能自信地在該時段安排更多員工。

使用現代工具自動化資料處理工作流程,可省下無數手動作業時間、加快取得洞察的速度,並讓技術團隊專注於創新。

舉例來說,財務團隊可以將月底的費用對帳作業自動化,將原本需要一週的手動試算表工作,縮短為幾分鐘就能完成的程序。

結構良好且經過處理的資料,是執行複雜模型的必要基礎,包括深度學習和大型語言模型,這些模型為生成式 AI 應用程式提供支援。

舉例來說,物流公司可能會使用歷來運送資料訓練機器學習模型,根據天氣模式預測送貨延誤情形,主動重新規劃卡車行駛路線。

四種資料處理類型

不同的業務需求需要不同的資料處理方式,至於如何選擇合適方式,很大程度上取決於您需要多快取得結果。

即時資料處理

這類處理作業通常會在資料生成後幾毫秒內完成。即時資料處理對於需要立即回應的工作至關重要,例如股票交易、詐欺偵測和更新即時資訊主頁。

批次資料處理

使用這種方法時,系統會收集一段時間內的資料,然後以大型群組或「批次」一次處理完畢。適合處理非緊急工作,例如計算薪資、製作每日財務報表,或產生每月公用事業費帳單。

串流資料處理

資料串流處理與即時處理類似,都是在資料產生時處理連續的資料流。這道程序著重於分析及處理一連串事件,而非單一資料點,通常會使用 Apache Kafka 等開放原始碼平台做為基礎引擎。資料串流通常用於物聯網 (IoT) 感應器資料或監控網站點擊流。

互動式資料處理

當使用者直接與資料或系統互動時,就會觸發這類資料處理作業。舉例來說,使用者在手機上搜尋網站或執行應用程式時,會觸發互動式資料處理事件,並立即獲得結果。

資料處理的未來

為了提高速度、規模和自動化程度,我們不斷革新資料處理方式。

多種競爭方法和事件導向架構

現代資料處理技術已從單體式應用程式轉向更靈活的模組化架構。這通常需要使用容器 (封裝應用程式及其依附元件,提升可攜性) 和微服務 (將複雜的應用程式拆解為較小的獨立功能)。

這些技術通常會搭配無伺服器運算,由雲端供應商全權管理基礎架構,而事件導向架構就是這兩者結合的結果。在這個模式中,處理工作不會持續執行,而是只會在出現特定「事件」時觸發,例如儲存 bucket 中有新資料。這有助於降低成本,並讓系統自動調度資源,滿足任何需求。

AI 輔助資料品質與自動化

我們將人工智慧和機器學習技術直接整合至處理管道,自動檢查資料品質並偵測異常狀況。這項採用 AI 技術的自動化功能可簡化準備階段,大幅加快傳統上最耗時的作業。

邊緣運算和本地化處理

隨著 IoT 裝置的普及,資料來源會產生大量資料,而邊緣運算則將資料處理能力移至靠近資料產生處 (即「邊緣」)。這項技術可立即本地化處理重要資料 (例如工廠的監控系統),減少延遲時間,並降低將所有原始資料傳回集中式雲端的成本。

透過 Google Cloud 解決業務難題

新客戶可以獲得價值 $300 美元的免費抵免額,盡情試用各項 Google Cloud 功能。

後續行動

運用價值 $300 美元的免費抵免額和 20 多項一律免費的產品,開始在 Google Cloud 建構產品與服務。