Data-Mesh ist ein Architektur-Framework für die Datenverwaltung in komplexen Organisationen. Im Gegensatz zu zentralisierten Modellen wird bei einem Data-Mesh die Dateninhaberschaft an domainspezifische Teams dezentralisiert. Dieser Ansatz kann dazu beitragen, Engpässe zu beseitigen, indem Daten als Produkt behandelt werden, er stellt aber auch neue Anforderungen an die Ressourcen. Der Erfolg eines Data-Mesh hängt davon ab, ob die Domain-Teams spezifische Data-Engineering-Kenntnisse und Governance-Fähigkeiten haben. Bei Unternehmen, die ausreichende Ressourcen zur Unterstützung verteilter Teams haben, kann Data-Mesh die Agilität verbessern. Für andere bleiben zentralisierte Modelle wie Data Warehouses oder Data Lakes die effizientere Lösung.
Bei Data-Meshs geht es nicht nur um neue Tools oder Technologien, sondern um eine neue Denkweise im Umgang mit Daten. Der Data-Mesh-Ansatz basiert auf vier Grundprinzipien. Diese Prinzipien machen den Ansatz bei der Lösung der Probleme traditioneller, zentralisierter Datenarchitekturen so effektiv.
In einer herkömmlichen Datenarchitektur ist ein einziges zentrales Team, z. B. ein IT- oder Data-Engineering-Team, für alle Daten verantwortlich. In einem Data-Mesh ist die Dateninhaberschaft auf die Geschäftsdomains verteilt, die die Daten erstellen. So gehören beispielsweise die von einem Vertriebsteam generierten Kundendaten diesem Team und die von einem Marketingteam erstellten Kampagnendaten diesem Team. So sind die Teams stärker für die von ihnen erstellten Daten verantwortlich.
Bei der domainorientierten Zuständigkeit müssen die Teams, die Daten erstellen, diese auch wie ein Produkt behandeln. So wie ein Unternehmen Kunden ein hochwertiges Produkt anbieten würde, muss ein Datendomänenteam anderen Teams, die Daten benötigen, hochwertige Daten zur Verfügung stellen. Das bedeutet, dass die Daten leicht zu finden, zu verstehen und zu verwenden sind. Außerdem müssen sie vertrauenswürdig, sicher und gut dokumentiert sein und integrierte Zugriffskontrollen bieten, damit auf Daten nur von den Personen zugegriffen werden kann, die dies in ihrem Anwendungsfall tun können sollen.
Damit Daten als Produkt behandelt werden können, wird in einem Data-Mesh eine Self-Service-Plattform verwendet. Diese Plattform ist eine Sammlung von Tools und Diensten, mit denen Datendomänenteams ihre Datenprodukte einfach erstellen und verwalten können, ohne die Hilfe eines zentralen Datenteams zu benötigen. Es kann sich um eine einfache, nutzerfreundliche Plattform handeln, die viele der technischen Aufgaben im Zusammenhang mit der Datenverwaltung automatisiert, wie z. B. Datenspeicherung, Sicherheit und Governance.
Da die Daten dezentralisiert sind und sich auf viele verschiedene Teams verteilen, muss es eine Möglichkeit geben, sicherzustellen, dass sich alle an dieselben Regeln halten. Hier kommt die föderierte Rechenverwaltung ins Spiel. Bei diesem Modell legt ein kleines, zentrales Team die globalen Regeln und Standards für alle Daten fest. Die Durchsetzung dieser Regeln wird jedoch von den Datendomain-Teams selbst übernommen. So wird das Beste aus beiden Welten vereint: zentralisierte Richtlinien mit dezentraler Ausführung.
Ein Datenprodukt in einem Data-Mesh sollte auffindbar, adressierbar, vertrauenswürdig, selbsterklärend und sicher sein. Datennutzer sollten die Daten leicht finden und deren Bedeutung verstehen können und sicher sein, dass sie von hoher Qualität sind. Außerdem sollten klare und konsistente Zugriffsregeln festgelegt werden, um die Sicherheit zu gewährleisten.
Der Aufbau eines Data-Mesh ist ein schrittweiser Prozess. Am besten beginnen Sie mit einem kleinen Pilotprojekt und einigen willigen Domain-Teams. Identifizieren Sie zunächst einen Geschäftsbereich, der von mehr Datenautonomie profitieren könnte. Erstellen Sie dann eine minimale Self-Service-Plattform, die es dem relevanten Team ermöglicht, ein Datenprodukt zu erstellen. Wenn das Projekt erfolgreich ist, können Sie die Ergebnisse als Proof of Concept verwenden, um die gesamte Organisation von der Data-Mesh-Architektur zu überzeugen.
Eine der größten Herausforderungen ist der kulturelle Wandel. Es kann für ein zentrales Datenteam schwierig sein, die Kontrolle abzugeben. Es gibt auch technische Herausforderungen, wie die Gewährleistung der Datensicherheit und die Verwaltung eines verteilten Systems. Mit sorgfältiger Planung und einer klaren Kommunikationsstrategie lassen sich diese Herausforderungen jedoch meistern.
Data-Meshs sind so konzipiert, dass sie mit vorhandenen Datensystemen funktioniert. Sie müssen Ihre aktuellen Data Lakes oder Data Warehouses nicht verwerfen. Stattdessen können Data-Meshs auf diesen implementiert werden. Ein Data-Mesh kann als neue Ebene dienen, die Teams einen einheitlichen Self-Service-Zugriff auf Daten aus verschiedenen Quellen ermöglicht.
Ein häufiges Missverständnis ist, dass ein Data-Mesh ein Produkt ist, das man kaufen kann. Aber weit gefehlt. Es ist eine neue Art, Daten zu organisieren und zu verwalten. Ein weiterer Mythos ist, dass es nur für große Unternehmen geeignet ist. Die Methode wird zwar hauptsächlich in großen Unternehmen angewendet, aber die Prinzipien lassen sich auch auf kleinere Organisationen übertragen.
Die Erfolgsmessung eines Data-Mesh kann schwierig sein, da die Vorteile oft nicht sofort finanzieller Natur sind. Stattdessen können Sie den Erfolg anhand von Faktoren wie der Geschwindigkeit der Datenbereitstellung, der Anzahl der Teams, die die Datenplattform nutzen, und dem Vertrauen der Teams in die Daten, die sie verwenden, messen. Im Laufe der Zeit können diese Verbesserungen zu besseren Geschäftsergebnissen und einem höheren Return on Investment (ROI) führen.
Der Data-Mesh-Ansatz wurde entwickelt, um einige der häufigsten Probleme mit herkömmlichen Datenarchitekturen zu lösen. Diese Modelle, wie z. B. Data Warehouses oder Data Lakes, die einzelnen Abteilungen oder Teams gehören, können Datensilos und Governance-Risiken schaffen, insbesondere wenn ein Unternehmen wächst. Das Data-Mesh-Konzept löst diese Probleme, indem es die Eigentümerschaft verteilt und einzelne Teams stärkt, während gleichzeitig zentrale Kontrollen für die Steuerung und Überwachung der Daten über Domains hinweg beibehalten werden.
Feature | Data-Mesh | Traditionelle Architekturen |
Architekturmodell | Dezentral und über Unternehmensbereiche verteilt. | Zentralisiert und monolithisch, verwaltet von einem einzigen Team. |
Eigentümerschaft von Daten | Die Daten gehören den Domänenteams, die sie erstellen und nutzen. | Die Daten werden von einem zentralen Datenteam verwaltet und sind dessen Eigentum. |
Datenzugriff | Teams greifen über standardisierte Datenprodukte auf Daten zu. | Teams müssen sich an ein zentrales Team wenden, um Daten zu erhalten. |
Skalierbarkeit | Lässt sich problemlos skalieren, wenn neue Domänenteams und Datenprodukte hinzugefügt werden. | Kann zu einem Engpass werden, wenn Unternehmen und Datenvolumen wachsen. |
Datenqualität | Die Teams sind für die Qualität ihrer eigenen Daten verantwortlich, was Vertrauen und Genauigkeit erhöhen kann. | Die Datenqualität kann uneinheitlich sein, da dem zentralen Team möglicherweise der Kontext der einzelnen Bereiche fehlt. |
Data Governance | Die Governance ist föderiert, wobei globale Standards und Regeln zentral festgelegt, aber von Domänenteams durchgesetzt werden. | Die Governance ist zentralisiert und wird vollständig von einem Team übernommen. |
Anwendungsfall | Kann am besten geeignet sein für große, komplexe Organisationen mit vielfältigen Daten und unabhängigen Geschäftseinheiten. | Kann für kleinere Organisationen oder für bestimmte Anwendungsfälle, die eine einzige Quelle der Wahrheit erfordern, am besten geeignet sein. |
Erforderliche technische Fachkenntnisse/Ressourcen | Erfordert verteilte technische Kompetenzen (Entwicklung, Governance) innerhalb der einzelnen Bereichsteams. | Zentralisiert technisches Fachwissen in einem zentralen IT- oder Data-Engineering-Team. |
Data-Mesh
Traditionelle Architekturen
Architekturmodell
Dezentral und über Unternehmensbereiche verteilt.
Zentralisiert und monolithisch, verwaltet von einem einzigen Team.
Eigentümerschaft von Daten
Die Daten gehören den Domänenteams, die sie erstellen und nutzen.
Die Daten werden von einem zentralen Datenteam verwaltet und sind dessen Eigentum.
Datenzugriff
Teams greifen über standardisierte Datenprodukte auf Daten zu.
Teams müssen sich an ein zentrales Team wenden, um Daten zu erhalten.
Skalierbarkeit
Lässt sich problemlos skalieren, wenn neue Domänenteams und Datenprodukte hinzugefügt werden.
Kann zu einem Engpass werden, wenn Unternehmen und Datenvolumen wachsen.
Datenqualität
Die Teams sind für die Qualität ihrer eigenen Daten verantwortlich, was Vertrauen und Genauigkeit erhöhen kann.
Die Datenqualität kann uneinheitlich sein, da dem zentralen Team möglicherweise der Kontext der einzelnen Bereiche fehlt.
Data Governance
Die Governance ist föderiert, wobei globale Standards und Regeln zentral festgelegt, aber von Domänenteams durchgesetzt werden.
Die Governance ist zentralisiert und wird vollständig von einem Team übernommen.
Anwendungsfall
Kann am besten geeignet sein für große, komplexe Organisationen mit vielfältigen Daten und unabhängigen Geschäftseinheiten.
Kann für kleinere Organisationen oder für bestimmte Anwendungsfälle, die eine einzige Quelle der Wahrheit erfordern, am besten geeignet sein.
Erforderliche technische Fachkenntnisse/Ressourcen
Erfordert verteilte technische Kompetenzen (Entwicklung, Governance) innerhalb der einzelnen Bereichsteams.
Zentralisiert technisches Fachwissen in einem zentralen IT- oder Data-Engineering-Team.
Der Data-Mesh-Ansatz kann besonders für große, komplexe Organisationen mit mehreren Geschäftsbereichen und einer großen Datenmenge nützlich sein. Hier sind einige gängige Anwendungsfälle, in denen ein Data Mesh einen erheblichen Mehrwert bieten kann.
Ein Data Mesh kann Organisationen helfen, mehr Nutzen aus ihren Datenanalysen und Business Intelligence (BI) Initiativen zu ziehen. Mithilfe von Datenprodukten aus verschiedenen Domains können Datenwissenschaftler und Analysten einen umfassenderen Überblick über das Unternehmen erhalten. Ein Einzelhandelsunternehmen kann beispielsweise Kundendaten aus seinem Vertriebsbereich mit Web-Traffic-Daten aus seinem Marketingbereich kombinieren, um das Kundenverhalten besser zu verstehen.
Eine 360-Grad-Kunden-Initiative hat zum Ziel, durch die Kombination von Daten aus verschiedenen Quellen ein vollständiges Bild des Kunden zu erstellen. Dies kann in einer zentralisierten Datenarchitektur eine Herausforderung darstellen, da die Daten oft in verschiedenen Abteilungen isoliert sind. Ein Data Mesh erleichtert dies erheblich, indem es eine standardisierte Möglichkeit bietet, auf Datenprodukte aus verschiedenen Bereichen wie Vertrieb, Marketing und Support zuzugreifen und diese zu kombinieren.
Im Finanzdienstleistungssektor kann ein Data Mesh für Echtzeit-Monitoring und Betrugserkennung eingesetzt werden. Eine Bank könnte beispielsweise ein Datenprodukt für Transaktionen und ein weiteres für Kundenanmeldedaten haben. Ein Betrugserkennungssystem kann dann auf beide Datenprodukte zugreifen, um verdächtige Aktivitäten zu identifizieren. Die dezentrale Struktur eines Data Mesh kann zur Geschwindigkeit und Zuverlässigkeit beitragen, die für solche Anwendungen erforderlich sind.
Da die Datenschutzbestimmungen immer komplexer werden, kann es schwierig sein, die Einhaltung in einem zentralisierten Datenmodell sicherzustellen. Ein Datennetz kann die Einhaltung gesetzlicher Vorschriften erleichtern, indem es Domänenteams ermöglicht, ihre eigenen Datenprodukte zu verwalten und sicherzustellen, dass diese den lokalen Gesetzen entsprechen. Dies ist besonders wichtig für multinationale Unternehmen, die in verschiedenen Ländern unterschiedliche Regeln zur Datenhoheit einhalten müssen.
Fortschrittliche KI-Anwendungen und Agents benötigen hochwertige, kontextreiche Daten, um effektiv zu funktionieren. In einem Data Mesh kuratieren Domainteams Daten speziell für diese Nutzung und sorgen dafür, dass sie bereinigt, gekennzeichnet und dokumentiert sind. Dies ermöglicht es Datenwissenschaftlern, Modelle mit zuverlässigen Eingabedaten zu trainieren, ohne übermäßig viel Zeit für die Datenaufbereitung aufwenden zu müssen. Darüber hinaus können KI-Agenten über APIs auf diese modularen Datenprodukte zugreifen, um Echtzeitinformationen abzurufen, wodurch sie komplexe Aufgaben in verschiedenen Geschäftsbereichen mit größerer Genauigkeit ausführen können.
Die Einführung eines Data Mesh kann für Unternehmen erhebliche Vorteile bringen. Durch den Übergang zu einem dezentralen Modell können Unternehmen die Engpässe traditioneller Architekturen überwinden und bessere Geschäftsergebnisse erzielen.
Agilität und Skalierbarkeit
Ein Data Mesh kann agiler sein. Die einzelnen Datendomains können unabhängig funktionieren, was es der Organisation ermöglicht, schneller zu wachsen und sich weiterzuentwickeln. Dadurch wird es einfacher, neue Datenprodukte und -dienste hinzuzufügen, ohne dass es zu Störungen kommt.
Datenqualität und Vertrauen
Ein Data Mesh ermöglicht die Zuordnung von Verantwortlichkeiten zu den Domänenteams, die die Daten erzeugen. Da die Domänenteams auch die Hauptnutzer ihrer eigenen Daten sind, haben sie ein starkes Interesse daran, deren Qualität sicherzustellen. Dies kann zu vertrauenswürdigeren Daten führen.
Kosteneffizienz
Ein Data Mesh kann Unternehmen auch helfen, kosteneffizienter zu werden. Bei einer zentralisierten Datenplattform müssen Teams oft auf ein zentrales Datenteam warten, das ihnen bei ihren Datenanforderungen hilft. Dies kann zu Verzögerungen und Ressourcenverschwendung führen.
Der Dataplex Universal Catalog fungiert als einheitliche Datenstruktur und bietet eine zentrale Governance-Ebene für Ihr Data Mesh. Er hilft Ihnen, Ihre verteilten Daten in verschiedenen Umgebungen zu entdecken, zu verwalten und zu steuern und stellt sicher, dass Sie eine einzige verlässliche Datenquelle für Metadaten und Richtlinien haben. Zuerst müssen Sie einen Dataplex-Lake erstellen. Ein Dataplex Lake ist ein übergeordneter Container, der Ihre Daten enthält und typischerweise einer Geschäftsdomäne zugeordnet ist.
Hier sind die Schritte zum Anlegen eines Lake:
Dataplex scannt diese Assets anschließend automatisch, um Metadaten zu finden und zu katalogisieren.
Ein wesentlicher Bestandteil des Prinzips „Daten als Produkt“ ist die einfache Auffindbarkeit von Daten. Die BigQuery-Datenweitergabe ermöglicht es Ihnen, einen Marktplatz für Datenprodukte aufzubauen. Dies ermöglicht es Domänenteams, Datenprodukte sicher mit anderen Teams zu teilen, ohne die Daten kopieren oder verschieben zu müssen. Es hilft Datennutzern, die benötigten Daten zu finden, und bietet eine klare, gut definierte Schnittstelle für den Zugriff auf diese Daten.
Mit den serverlosen Diensten von Google Cloud können Domainteams eigene Datenprodukte mit minimalem Aufwand erstellen und verwalten. BigQuery ist ein leistungsstarkes, serverloses Data Warehouse, das es Teams ermöglicht, große Datensätze schnell und effizient zu analysieren. Dataflow ist ein serverloser Datenverarbeitungsdienst, mit dem Datenpipelines für Datenprodukte erstellt und automatisiert werden können. Diese Dienste verringern den Bedarf an einem zentralen Datenentwicklungsteam zur Verwaltung der Infrastruktur und machen Domänenteams autonomer und agiler.
Das Prinzip der föderierten Rechensteuerung besteht darin, dass ein zentrales Team globale Regeln definiert, die dann aber von den Domänenteams durchgesetzt werden. Die Bedingungen des Identitäts- und Zugriffsmanagement (IAM) von Google Cloud liefern die Mittel, um dies umzusetzen. IAM-Bedingungen ermöglichen eine attributbasierte Zugriffssteuerung (ABAC, Attribute-Based Access Control), bei der Sie fein abgestufte Berechtigungen auf Basis von Datenattributen einrichten können. Sie können beispielsweise eine Richtlinie erstellen, die es einem Nutzer nur erlaubt, auf Kundendaten aus seiner Region zuzugreifen. So können Sie für die Einhaltung von Vorschriften zur Datenhoheit wie der DSGVO sorgen.
Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“ Produkte kennenzulernen.