什麼是資料網格?

資料網格是管理複雜組織資料的架構。與集中式模型不同,資料網格將資料擁有權分散給特定領域的團隊。這種做法能將資料視為產品,有助於消除瓶頸,但也會產生新的資源需求。如要成功導入資料網格,各領域團隊必須具備特定的資料工程技能和管理能力。對於有資源支援分散式團隊的組織來說,資料網格可提升靈活度。對其他企業來說,資料倉儲資料湖泊等集中式模型可能仍是更有效率的解決方案。

資料網格的基本原則

資料網格不僅是新工具或技術,更是企業對資料的思維轉變。資料網格做法有四項核心原則。這些原則讓資料網格方法能有效解決傳統集中式資料架構的問題。

以領域為導向的擁有權

在傳統的資料架構中,一個中央專責團隊 (例如 IT 團隊或資料工程團隊) 負責所有資料。在資料網格中,資料擁有權分散到建立資料的各個業務領域。例如,銷售團隊擁有他們產生的客戶資料,而行銷團隊擁有他們建立的廣告活動資料。這可讓團隊對他們產生的資料更有責任感。

將資料視為產品

在網域導向的擁有權模式中,建立資料的團隊也必須將資料視為產品。就像公司會向客戶提供高品質產品一樣,資料領域團隊也需要向其他有需要的團隊提供高品質資料。這表示資料易於探索、理解和使用。它還必須值得信賴、安全可靠、文件齊全,並內建存取控管機制,只有合適的人員才能存取其用途所需的資料。

將自助式資料基礎架構做為平台

為了能將資料視為產品,資料網格採用了自助平台。該平台是一套工具和服務,讓資料領域團隊能夠輕鬆建立和管理其資料產品,而無需核心資料團隊的協助。它可以是一個簡單易用的平台,能夠自動完成資料管理涉及的許多技術工作,例如資料儲存、安全性和治理。

聯合運算治理

由於資料去中心化並分散在許多不同團隊,因此必須有辦法確保所有人都遵守相同的規則。這時就需要聯合運算治理。在這種模式下,由一個小型的中央專責團隊制定所有資料的全域規則和標準。不過,這些規則的執行由資料領域團隊自行處理。這結合了兩者的優點:集中式政策和去中心化執行。

資料網格常見問題

資料網格中的資料產品應具備尋獲度、可定址、可信任、自述式和安全等特性。資料使用者應能輕鬆找到資料、瞭解資料內容,並知道資料品質良好。此外,還應制定明確一致的存取規則,確保安全無虞。

建構資料網格是循序漸進的過程。建議先從小型前測計畫著手,並找幾個願意配合的領域團隊。首先確定一個可以從更高的資料自主性中受益的業務領域。然後,建立一個最基本的自助平台,可讓該團隊建立資料產品。專案成功後,您可以將結果作為概念驗證,讓更廣泛的組織使用資料網格架構。

最大的挑戰之一是文化轉變。對於集中式資料團隊來說,放棄控制權可能很困難。此外,還存在一些技術挑戰,例如確保資料安全性和管理分散式系統。然而,透過謹慎的規劃和清晰的溝通策略,可以克服這些挑戰。

資料網格的設計宗旨是與現有資料系統搭配運作。您不必捨棄現有的資料湖泊或資料倉儲,而是在這些技術之上實作。資料網格可做為新的一層,讓團隊以統一的自助方式存取不同來源的資料。

常見的誤解是,資料網格是可購買的產品。但其實不是。這是一種全新的資料整理與管理方式。另一個迷思是,只有大型企業才需要使用這類做法。雖然這種做法在大型公司最常見,但小型組織也能應用這些原則。

衡量資料網格的成功與否可能很棘手,因為其帶來的效益往往並非立竿見影的經濟效益。不過,您可以透過觀察資料傳送速度、使用資料平台的團隊數量,以及團隊對他們正在使用的資料的信任度等因素,來衡量成功與否。隨著時間的推移,這些改善情形可以帶來更好的業務成果,以及更高的投資報酬率 (ROI)。

資料網格與傳統資料架構的比較

資料網格方法是專為解決傳統資料架構的一些常見問題而建立。這些模型,例如由各部門或團隊擁有的資料倉儲或資料湖泊,可能會造成資料孤島和治理風險,尤其是在公司發展壯大之後。資料網格透過分散擁有權和賦予各個團隊權力來解決這些問題,同時在跨領域資料的治理和監控方面,仍維持集中控制。

特徵

資料網格

傳統架構

架構模型

去中心化並分散在各業務領域。

集中式單體架構,由單一團隊管理。

資料擁有權

資料的擁有權歸建立和使用該資料的領域團隊所有。

資料由核心資料團隊擁有和管理。

資料存取權

團隊透過標準化資料產品存取資料。

團隊必須透過中央專責團隊取得資料。

擴充性

隨著新領域團隊和資料產品的加入,可輕鬆擴充。

隨著組織規模和資料量的成長,可能會成為瓶頸。

資料品質

領域團隊對其自身的資料品質負責,這可以提高信任度和準確率。

由於中央專責團隊可能缺乏各個領域的背景資訊,因此資料品質可能不一致。

資料管理

採用聯合治理方式,並集中制定全球標準和規則,但由領域團隊執行。

集中化治理,完全由一個團隊負責。

用途

適合擁有多元資料和獨立業務單位的大型複雜組織。

適合小型組織或需要單一資料來源的特定用途。

所需技術專業知識/資源

需要各領域團隊具備分散式技術技能 (工程、治理)。

將技術專業知識集中在一個核心 IT 或資料工程團隊。

特徵

資料網格

傳統架構

架構模型

去中心化並分散在各業務領域。

集中式單體架構,由單一團隊管理。

資料擁有權

資料的擁有權歸建立和使用該資料的領域團隊所有。

資料由核心資料團隊擁有和管理。

資料存取權

團隊透過標準化資料產品存取資料。

團隊必須透過中央專責團隊取得資料。

擴充性

隨著新領域團隊和資料產品的加入,可輕鬆擴充。

隨著組織規模和資料量的成長,可能會成為瓶頸。

資料品質

領域團隊對其自身的資料品質負責,這可以提高信任度和準確率。

由於中央專責團隊可能缺乏各個領域的背景資訊,因此資料品質可能不一致。

資料管理

採用聯合治理方式,並集中制定全球標準和規則,但由領域團隊執行。

集中化治理,完全由一個團隊負責。

用途

適合擁有多元資料和獨立業務單位的大型複雜組織。

適合小型組織或需要單一資料來源的特定用途。

所需技術專業知識/資源

需要各領域團隊具備分散式技術技能 (工程、治理)。

將技術專業知識集中在一個核心 IT 或資料工程團隊。

資料網格的應用實例

對於擁有多個業務單位和大量資料的大型複雜組織來說,資料網格方法特別實用。以下是一些資料網格能夠提供顯著價值的常見用途。

資料網格可以幫助組織從資料分析和商業智慧 (BI) 計畫中獲得更多價值。資料科學家和分析師可透過不同領域的資料產品,更全面地瞭解業務。例如,零售公司可以將銷售領域的客戶資料與行銷領域的網路流量資料結合,進一步瞭解客戶行為。

全方位客戶資訊計畫旨在透過整合不同來源的資料,建立完整的客戶資料檢視。在集中式資料架構中,這可能會帶來挑戰,因為資料通常分散在不同的部門中。資料網格透過提供一種標準化的方法,來存取和整合來自不同領域 (例如銷售、行銷和支援) 的資料產品,使這一切變得更容易。

在金融服務領域,資料網格可用於即時監控和詐欺偵測。例如,一家銀行可以有一個用於交易的資料產品,以及另一個用於客戶登入資料的資料產品。詐欺偵測系統接著就能存取這兩項資料產品,找出可疑活動。資料網格的去中心化特性有助於提高這類應用程式所需的速度和可靠性。

隨著資料隱私權法規變得日益複雜,組織可能難以確保集中式資料模型符合規定。資料網格可讓領域團隊管理自己的資料產品,確保符合當地法律,進而協助企業遵循法規。這對跨國公司尤其重要,因為他們必須遵守不同國家/地區的資料主權規定。

進階 AI 應用程式和代理需要高品質且富含背景資訊的資料,才能有效運作。在資料網格中,領域團隊會專門整理資料供使用,確保資料乾淨、加上標籤並已記錄。資料科學家可使用可靠的輸入內容訓練模型,不必花費過多時間準備資料。此外,AI 代理可透過 API 存取這些模組化資料產品,擷取即時資訊,在不同業務領域更準確地執行複雜工作。

採用資料網格的優點

採用資料網格可以為組織帶來顯著的好處。改用去中心化模式後,公司就能克服傳統架構的瓶頸,締造更出色的業務成果。


靈活性與擴充性

資料網格可提高靈活度。各資料領域可獨立運作,讓組織能更快擴充及發展。這樣可以更輕鬆地新增新的資料產品和服務,而不會造成中斷。

資料品質與可信度

資料網格可以明確指派產生資料的各個領域團隊的責任。由於領域團隊也是自家資料的主要使用者,因此有強烈的動機確保資料品質。這有助於獲得更值得信賴的資料。

具成本效益

資料網格也能協助公司提高成本效益。如果是集中式資料平台,團隊通常必須等待核心資料團隊協助處理資料需求。這會導致延誤和資源浪費。

建立統一的 data fabric 和集中式治理機制

Dataplex Universal Catalog 可作為統一的 data fabric,並為您的資料網格提供集中式治理層。這項服務可協助您探索、管理及治理分散在不同環境的資料,確保中繼資料和政策的單一資料來源。首先,您需要建立一個 Dataplex 湖泊。Dataplex 湖泊 是一個頂層容器,用於存放您的資料,並且通常會對應到業務領域。

以下是建立湖泊的步驟:

  1. Google Cloud 控制台中,瀏覽至 Dataplex Universal Catalog 的「湖泊」頁面。
  2. 點按「建立」後,使用描述性的名稱為您的新湖泊命名,例如「銷售資料領域」或「行銷資料網格」。
  3. 為您的湖泊選擇一個區域。
  4. 建立湖泊後,就可以新增儲存區。儲存區是湖泊中的一個子領域,代表特定的團隊或資料合約。舉例來說,在「銷售資料領域」湖泊中,您可以建立「原始」儲存區來存放未經處理的資料,並建立「整理後資料」儲存區來存放已清理且可用於正式環境的資料。
  5. 建立儲存區後,即可將資產附加至這些儲存區。資產是指儲存在 Cloud StorageBigQuery 等服務中的實際資料。您只需將 Dataplex 儲存區指向您的資料位置即可。

Dataplex 會自動掃描這些資產,以探索中繼資料並建立目錄。

透過資料產品市集加速探索

「資料即產品」原則的關鍵,在於讓需要的人容易找到資料。BigQuery 資料共用可讓您建立資料產品市集。這樣一來,領域團隊就可以安全地與其他團隊共用資料產品,而無需複製或移動資料。這可以幫助資料使用者找到所需資料,並為他們提供清楚、明確定義的存取介面。

在無伺服器平台上建構及分享資料產品

Google Cloud 的無伺服器服務可讓領域團隊建立和管理自己的資料產品,盡量減少工作負擔。BigQuery 是一個功能強大的無伺服器資料倉儲,可讓團隊快速、有效率地分析大型資料集。Dataflow 是一種無伺服器資料處理服務,可用於建立和自動化資料產品的資料管道。這些服務減少需要中央資料工程團隊管理基礎結構的情況,提高領域團隊的自主程度和靈活度。

確保符合屬性式存取控管規定

聯合運算治理原則是指由中央專責團隊定義全域規則,但允許領域團隊強制執行這些規則。Google Cloud 的 Identity and Access Management (IAM) 條件可協助您實作這項做法。IAM 條件可讓您根據資料屬性設定精細的權限,實作屬性式存取控管 (ABAC)。舉例來說,您可以建立政策,只允許使用者從特定區域存取客戶資料,確保遵守 GDPR 等資料主權法規。

透過 Google Cloud 解決業務難題

新客戶可以獲得價值 $300 美元的免費抵免額,盡情試用各項 Google Cloud 功能。

展開下一步行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品,開始在 Google Cloud 中建構產品與服務。