数据网格不仅仅是一套新的工具或技术,它还转变了公司思考数据的方式。数据网格方法遵循四个核心原则。正是这些原则使得此方法能够有效解决传统集中式数据架构的问题。
在传统的数据架构中,一个中央团队(例如 IT 团队或数据工程团队)负责所有数据。在数据网格中,数据所有权分散到创建数据的业务领域。例如,销售团队拥有自己创建的客户数据,营销团队拥有自己创建的营销活动数据。这样,各个团队便会对自己产生的数据更加用心和负责。
在以领域为导向的所有权模式下,创建数据的团队也必须像对待产品一样对待数据。就像公司要为客户提供高质量的产品一样,数据域团队也要为需要数据的其他团队提供高质量的数据。这意味着数据易于发现、理解和使用。数据还必须可信、安全、信息完备,并且内置访问权限控制,仅允许相应人员访问其用途所必需的数据。
为了实现数据即产品,数据网格使用自助式平台。该平台是一组工具和服务,可让数据域团队轻松创建和管理其数据产品,而无需中央数据团队的帮助。它可以是一个简单易用的平台,能够自动执行数据管理中涉及的许多技术任务,例如数据存储、安全和治理。
由于数据是分散的,分布在许多不同的团队中,因此需要一种方法来确保每个人都遵循相同的规则。这正是联邦计算治理的用武之地。在这种模式下,一个小型中央团队会为所有数据设置全局规则和标准。不过,这些规则的执行由数据域团队自行处理。这结合了两方面的优势:集中式政策和分散式执行。
数据网格中的数据产品应该具备易于查找、可寻址、可信、自描述和安全等特性。数据使用者应该能够轻松发现数据,了解数据的含义,并确信数据质量良好。数据还应具有清晰一致的访问规则,以确保安全。
构建数据网格是一个逐步推进的过程。一般来说,最好从一个小规模测试项目和几个愿意尝试的团队开始。首先,确定一个可以从拥有更大的数据自治权中受益的业务领域。然后,搭建一个尽可能精简的自助式平台,让该团队能够创建数据产品。测试项目成功后,您可以将结果作为概念验证,在组织内更广泛地采用数据网格架构。
最大的挑战之一是文化上的转变。对于集中式数据团队来说,放弃控制权可能很困难。此外,还有技术方面的挑战,例如确保数据安全和管理分布式系统。但是,通过周密的规划和清晰的沟通策略,这些挑战都是可以克服的。
数据网格旨在与现有数据系统协同工作。您不需要弃用现有的数据湖或数据仓库,而是可以在它们的基础上实现数据网格。数据网格作为一个新层,为各个团队提供统一的自助式方式来访问不同来源的数据。
一个常见的误解是,数据网格是一种可以购买的产品。实际并非如此。它是一种新的数据组织和管理方式。另一个误解是,它只适用于大型企业。虽然这种方法在大公司中最常见,但相同的原则也适用于小型组织。
衡量数据网格的成效并不容易,因为初始阶段的收益往往无法体现在财务上。您可以从数据交付速度、使用数据平台的团队数量以及各团队对所使用数据的信任度等方面来衡量成效。随着时间的推移,这些改进可以带来更好的业务成果和更高的投资回报率 (ROI)。
数据网格方法旨在解决传统数据架构的一些常见问题。这些模型(例如由各个部门或团队拥有的数据仓库或数据湖)可能会造成数据孤岛和治理风险,尤其是在公司快速发展的阶段。数据网格通过分配所有权并为各个团队赋能来解决这些问题,同时仍然维持集中式控制,以跨域治理和监控数据。
特征 | 数据网格 | 传统架构 |
架构模型 | 去中心化、分布式,跨多个业务领域。 | 集中式和单体式,由单个团队管理。 |
数据所有权 | 数据的所有权属于创建和使用数据的域团队。 | 数据由中央数据团队拥有和管理。 |
数据访问权限 | 各个团队通过标准化的数据产品访问数据。 | 各个团队必须通过中央团队获取数据。 |
可伸缩性 | 在新的域团队和数据产品加入时可以轻松扩展。 | 随着组织规模和数据量的增长可能成为瓶颈。 |
数据质量 | 域团队对自己的数据质量负责,这可以提高可信度和准确性。 | 由于中央团队可能缺乏各个领域的背景信息,数据质量可能参差不齐。 |
数据治理 | 联合式治理,全局标准和规则由中央团队统一制定,但由域团队执行。 | 集中式治理,完全由一个团队负责。 |
用例 | 适合拥有多样化数据和独立业务部门的大型复杂组织。 | 适合规模较小的组织或需要单一可信来源的特定用例。 |
所需的技术专业知识/资源 | 每个域团队都需要具备分布式技术技能(工程、治理)。 | 将技术专业知识集中于一个核心的 IT 或数据工程团队。 |
数据网格
传统架构
架构模型
去中心化、分布式,跨多个业务领域。
集中式和单体式,由单个团队管理。
数据所有权
数据的所有权属于创建和使用数据的域团队。
数据由中央数据团队拥有和管理。
数据访问权限
各个团队通过标准化的数据产品访问数据。
各个团队必须通过中央团队获取数据。
可伸缩性
在新的域团队和数据产品加入时可以轻松扩展。
随着组织规模和数据量的增长可能成为瓶颈。
数据质量
域团队对自己的数据质量负责,这可以提高可信度和准确性。
由于中央团队可能缺乏各个领域的背景信息,数据质量可能参差不齐。
数据治理
联合式治理,全局标准和规则由中央团队统一制定,但由域团队执行。
集中式治理,完全由一个团队负责。
用例
适合拥有多样化数据和独立业务部门的大型复杂组织。
适合规模较小的组织或需要单一可信来源的特定用例。
所需的技术专业知识/资源
每个域团队都需要具备分布式技术技能(工程、治理)。
将技术专业知识集中于一个核心的 IT 或数据工程团队。
数据网格方法特别适合拥有多个业务部门和大量数据的大型复杂组织。以下是数据网格的一些常见应用场景,它能在其中提供巨大的价值。
数据网格可以帮助组织从数据分析和商业智能 (BI) 计划中获得更多价值。有了来自不同领域的数据产品,数据科学家和分析师可以更全面地了解业务。例如,零售公司可以将销售领域的客户数据与营销领域的网站流量数据结合起来,更好地了解客户行为。
“全面了解客户”计划旨在通过整合不同来源的数据,构建全面的客户画像。在集中式数据架构中,由于数据通常分散在不同的部门中,这项工作会面临很多困难。数据网格提供了一种标准化的方法来访问及整合不同领域(如销售、营销和支持)的数据产品,使这项工作变得十分简单。
在金融服务领域,数据网格可用于实时监控和欺诈检测。例如,银行可以创建一个关于交易的数据产品和一个关于客户登录的数据产品。然后,欺诈检测系统可以访问这两个数据产品来识别可疑活动。数据网格的去中心化特性能够满足此类应用所需的速度和可靠性。
随着数据隐私权法规变得越来越复杂,在集中式数据模型中确保合规性会变得越发困难。数据网格使域团队可以管理各自的数据产品并确保其符合当地法律,从而确保符合监管要求。对于需要遵守不同国家的不同数据主权规则的跨国公司而言,这一点尤为重要。
采用数据网格可以为组织带来显著的优势。通过采用去中心化模型,公司可以克服传统架构的瓶颈,实现更好的业务成果。
敏捷性和可伸缩性
数据网格更加灵活。每个数据域都可以独立运行,这使得组织能够更快地扩展和改进。组织可以更轻松地添加新的数据产品和服务,而不会造成中断。
数据质量和可信度
数据网格可以明确指定生成数据的各个域团队的责任。由于域团队也是自己数据的主要使用者,因此他们有很强的动力来保证数据质量。这有助于提升数据的可信度。
成本效益
数据网格还可以帮助公司提高成本效益。使用集中式数据平台时,团队通常需要等待中央数据团队来帮助他们满足数据需求。这会导致延迟和资源浪费。
Dataplex Universal Catalog 充当统一的数据结构脉络,并提供位于数据网格之上的中央治理层。它可以帮助您发现、管理和控制跨各种环境的分布式数据,确保您拥有元数据和策略的单一可信来源。首先,您需要创建一个 Dataplex 数据湖。Dataplex 数据湖是用于保存数据的顶级容器,并且通常与业务领域相对应。
以下是创建数据湖的步骤:
然后,Dataplex 会自动扫描这些资产,以发现元数据并对其进行编目。
“数据即产品”原则的重点之一在于使数据易于发现。借助 BigQuery 数据共享,您可以构建数据产品市场。这样,域团队就可以安全地与其他团队共享数据产品,而无需复制或移动数据。它可以帮助数据使用者找到需要的数据,并为他们提供清晰、明确的访问界面。
Google Cloud 的无服务器服务使领域团队能够以最小的开销创建和管理自己的数据产品。BigQuery 是一个功能强大的无服务器数据仓库,使团队能够快速高效地分析大型数据集。Dataflow 是一个无服务器数据处理服务,可用于构建和自动运行数据产品的数据流水线。这些服务可减少中央数据工程团队管理基础设施的需求,使域团队获得更高的自主性和敏捷性。
联合式计算治理原则是指由一个中央团队定义全局规则,但允许各个域团队来执行这些规则。Google Cloud 的 Identity and Access Management (IAM) 条件提供了实现此目标的工具。IAM 条件支持基于属性的访问权限控制 (ABAC),您可以基于数据属性设置精细的权限。例如,您可以创建一项政策,仅允许用户访问特定地区的客户数据,从而帮助确保遵守 GDPR 等数据主权法规。