Was ist ein Data -Mesh?

Data-Mesh ist ein Architektur-Framework für die Datenverwaltung in komplexen Organisationen. Im Gegensatz zu zentralisierten Modellen wird bei einem Data-Mesh die Dateninhaberschaft an domainspezifische Teams dezentralisiert. Dieser Ansatz kann dazu beitragen, Engpässe zu beseitigen, indem Daten als Produkt behandelt werden, er stellt aber auch neue Anforderungen an die Ressourcen. Der Erfolg eines Data-Mesh hängt davon ab, ob die Domain-Teams spezifische Data-Engineering-Kenntnisse und Governance-Fähigkeiten haben. Bei Unternehmen, die ausreichende Ressourcen zur Unterstützung verteilter Teams haben, kann Data-Mesh die Agilität verbessern. Für andere bleiben zentralisierte Modelle wie Data Warehouses oder Data Lakes die effizientere Lösung.

Grundlegende Data-Mesh-Prinzipien

Bei Data-Meshs geht es nicht nur um neue Tools oder Technologien, sondern um eine neue Denkweise im Umgang mit Daten. Der Data-Mesh-Ansatz basiert auf vier Grundprinzipien. Diese Prinzipien machen den Ansatz bei der Lösung der Probleme traditioneller, zentralisierter Datenarchitekturen so effektiv.

Domainorientierte Inhaberschaft

In einer herkömmlichen Datenarchitektur ist ein einziges zentrales Team, z. B. ein IT- oder Data-Engineering-Team, für alle Daten verantwortlich. In einem Data-Mesh ist die Dateninhaberschaft auf die Geschäftsdomains verteilt, die die Daten erstellen. So gehören beispielsweise die von einem Vertriebsteam generierten Kundendaten diesem Team und die von einem Marketingteam erstellten Kampagnendaten diesem Team. So sind die Teams stärker für die von ihnen erstellten Daten verantwortlich.

Daten als Produkt

Bei der domainorientierten Zuständigkeit müssen die Teams, die Daten erstellen, diese auch wie ein Produkt behandeln. So wie ein Unternehmen Kunden ein hochwertiges Produkt anbieten würde, muss ein Datendomänenteam anderen Teams, die Daten benötigen, hochwertige Daten zur Verfügung stellen. Das bedeutet, dass die Daten leicht zu finden, zu verstehen und zu verwenden sind. Außerdem müssen sie vertrauenswürdig, sicher und gut dokumentiert sein und integrierte Zugriffskontrollen bieten, damit auf Daten nur von den Personen zugegriffen werden kann, die dies in ihrem Anwendungsfall tun können sollen.

Self-Service-Dateninfrastruktur als Plattform

Damit Daten als Produkt behandelt werden können, wird in einem Data-Mesh eine Self-Service-Plattform verwendet. Diese Plattform ist eine Sammlung von Tools und Diensten, mit denen Datendomänenteams ihre Datenprodukte einfach erstellen und verwalten können, ohne die Hilfe eines zentralen Datenteams zu benötigen. Es kann sich um eine einfache, nutzerfreundliche Plattform handeln, die viele der technischen Aufgaben im Zusammenhang mit der Datenverwaltung automatisiert, wie z. B. Datenspeicherung, Sicherheit und Governance.

Föderierte Governance für die Datenverarbeitung

Da die Daten dezentralisiert sind und sich auf viele verschiedene Teams verteilen, muss es eine Möglichkeit geben, sicherzustellen, dass sich alle an dieselben Regeln halten. Hier kommt die föderierte Rechenverwaltung ins Spiel. Bei diesem Modell legt ein kleines, zentrales Team die globalen Regeln und Standards für alle Daten fest. Die Durchsetzung dieser Regeln wird jedoch von den Datendomain-Teams selbst übernommen. So wird das Beste aus beiden Welten vereint: zentralisierte Richtlinien mit dezentraler Ausführung.

Häufig gestellte Fragen zu Data-Meshs

Ein Datenprodukt in einem Data-Mesh sollte auffindbar, adressierbar, vertrauenswürdig, selbsterklärend und sicher sein. Datennutzer sollten die Daten leicht finden und deren Bedeutung verstehen können und sicher sein, dass sie von hoher Qualität sind. Außerdem sollten klare und konsistente Zugriffsregeln festgelegt werden, um die Sicherheit zu gewährleisten.

Der Aufbau eines Data-Mesh ist ein schrittweiser Prozess. Am besten beginnen Sie mit einem kleinen Pilotprojekt und einigen willigen Domain-Teams. Identifizieren Sie zunächst einen Geschäftsbereich, der von mehr Datenautonomie profitieren könnte. Erstellen Sie dann eine minimale Self-Service-Plattform, die es dem relevanten Team ermöglicht, ein Datenprodukt zu erstellen. Wenn das Projekt erfolgreich ist, können Sie die Ergebnisse als Proof of Concept verwenden, um die gesamte Organisation von der Data-Mesh-Architektur zu überzeugen.

Eine der größten Herausforderungen ist der kulturelle Wandel. Es kann für ein zentrales Datenteam schwierig sein, die Kontrolle abzugeben. Es gibt auch technische Herausforderungen, wie die Gewährleistung der Datensicherheit und die Verwaltung eines verteilten Systems. Mit sorgfältiger Planung und einer klaren Kommunikationsstrategie lassen sich diese Herausforderungen jedoch meistern.

Data-Meshs sind so konzipiert, dass sie mit vorhandenen Datensystemen funktioniert. Sie müssen Ihre aktuellen Data Lakes oder Data Warehouses nicht verwerfen. Stattdessen können Data-Meshs auf diesen implementiert werden. Ein Data-Mesh kann als neue Ebene dienen, die Teams einen einheitlichen Self-Service-Zugriff auf Daten aus verschiedenen Quellen ermöglicht.

Ein häufiges Missverständnis ist, dass ein Data-Mesh ein Produkt ist, das man kaufen kann. Aber weit gefehlt. Es ist eine neue Art, Daten zu organisieren und zu verwalten. Ein weiterer Mythos ist, dass es nur für große Unternehmen geeignet ist. Die Methode wird zwar hauptsächlich in großen Unternehmen angewendet, aber die Prinzipien lassen sich auch auf kleinere Organisationen übertragen.

Die Erfolgsmessung eines Data-Mesh kann schwierig sein, da die Vorteile oft nicht sofort finanzieller Natur sind. Stattdessen können Sie den Erfolg anhand von Faktoren wie der Geschwindigkeit der Datenbereitstellung, der Anzahl der Teams, die die Datenplattform nutzen, und dem Vertrauen der Teams in die Daten, die sie verwenden, messen. Im Laufe der Zeit können diese Verbesserungen zu besseren Geschäftsergebnissen und einem höheren Return on Investment (ROI) führen.

Data-Mesh im Vergleich zu herkömmlichen Datenarchitekturen

Der Data-Mesh-Ansatz wurde entwickelt, um einige der häufigsten Probleme mit herkömmlichen Datenarchitekturen zu lösen. Diese Modelle, wie z. B. Data Warehouses oder Data Lakes, die einzelnen Abteilungen oder Teams gehören, können Datensilos und Governance-Risiken schaffen, insbesondere wenn ein Unternehmen wächst. Das Data-Mesh-Konzept löst diese Probleme, indem es die Eigentümerschaft verteilt und einzelne Teams stärkt, während gleichzeitig zentrale Kontrollen für die Steuerung und Überwachung der Daten über Domains hinweg beibehalten werden.

Feature

Data-Mesh

Traditionelle Architekturen

Architekturmodell

Dezentral und über Unternehmensbereiche verteilt.

Zentralisiert und monolithisch, verwaltet von einem einzigen Team.

Eigentümerschaft von Daten

Die Daten gehören den Domänenteams, die sie erstellen und nutzen.

Die Daten werden von einem zentralen Datenteam verwaltet und sind dessen Eigentum.

Datenzugriff

Teams greifen über standardisierte Datenprodukte auf Daten zu.

Teams müssen sich an ein zentrales Team wenden, um Daten zu erhalten.

Skalierbarkeit

Lässt sich problemlos skalieren, wenn neue Domänenteams und Datenprodukte hinzugefügt werden.

Kann zu einem Engpass werden, wenn Unternehmen und Datenvolumen wachsen.

Datenqualität

Die Teams sind für die Qualität ihrer eigenen Daten verantwortlich, was Vertrauen und Genauigkeit erhöhen kann.

Die Datenqualität kann uneinheitlich sein, da dem zentralen Team möglicherweise der Kontext der einzelnen Bereiche fehlt.

Data Governance

Die Governance ist föderiert, wobei globale Standards und Regeln zentral festgelegt, aber von Domänenteams durchgesetzt werden.

Die Governance ist zentralisiert und wird vollständig von einem Team übernommen.

Anwendungsfall

Kann am besten geeignet sein für große, komplexe Organisationen mit vielfältigen Daten und unabhängigen Geschäftseinheiten.

Kann für kleinere Organisationen oder für bestimmte Anwendungsfälle, die eine einzige Quelle der Wahrheit erfordern, am besten geeignet sein.

Erforderliche technische Fachkenntnisse/Ressourcen

Erfordert verteilte technische Kompetenzen (Entwicklung, Governance) innerhalb der einzelnen Bereichsteams.

Zentralisiert technisches Fachwissen in einem zentralen IT- oder Data-Engineering-Team.

Feature

Data-Mesh

Traditionelle Architekturen

Architekturmodell

Dezentral und über Unternehmensbereiche verteilt.

Zentralisiert und monolithisch, verwaltet von einem einzigen Team.

Eigentümerschaft von Daten

Die Daten gehören den Domänenteams, die sie erstellen und nutzen.

Die Daten werden von einem zentralen Datenteam verwaltet und sind dessen Eigentum.

Datenzugriff

Teams greifen über standardisierte Datenprodukte auf Daten zu.

Teams müssen sich an ein zentrales Team wenden, um Daten zu erhalten.

Skalierbarkeit

Lässt sich problemlos skalieren, wenn neue Domänenteams und Datenprodukte hinzugefügt werden.

Kann zu einem Engpass werden, wenn Unternehmen und Datenvolumen wachsen.

Datenqualität

Die Teams sind für die Qualität ihrer eigenen Daten verantwortlich, was Vertrauen und Genauigkeit erhöhen kann.

Die Datenqualität kann uneinheitlich sein, da dem zentralen Team möglicherweise der Kontext der einzelnen Bereiche fehlt.

Data Governance

Die Governance ist föderiert, wobei globale Standards und Regeln zentral festgelegt, aber von Domänenteams durchgesetzt werden.

Die Governance ist zentralisiert und wird vollständig von einem Team übernommen.

Anwendungsfall

Kann am besten geeignet sein für große, komplexe Organisationen mit vielfältigen Daten und unabhängigen Geschäftseinheiten.

Kann für kleinere Organisationen oder für bestimmte Anwendungsfälle, die eine einzige Quelle der Wahrheit erfordern, am besten geeignet sein.

Erforderliche technische Fachkenntnisse/Ressourcen

Erfordert verteilte technische Kompetenzen (Entwicklung, Governance) innerhalb der einzelnen Bereichsteams.

Zentralisiert technisches Fachwissen in einem zentralen IT- oder Data-Engineering-Team.

Anwendungsfälle für Data-Mesh

Der Data-Mesh-Ansatz kann besonders für große, komplexe Organisationen mit mehreren Geschäftsbereichen und einer großen Datenmenge nützlich sein. Hier sind einige gängige Anwendungsfälle, in denen ein Data Mesh einen erheblichen Mehrwert bieten kann.

Ein Data Mesh kann Organisationen helfen, mehr Nutzen aus ihren Datenanalysen und Business Intelligence (BI) Initiativen zu ziehen. Mithilfe von Datenprodukten aus verschiedenen Domains können Datenwissenschaftler und Analysten einen umfassenderen Überblick über das Unternehmen erhalten. Ein Einzelhandelsunternehmen kann beispielsweise Kundendaten aus seinem Vertriebsbereich mit Web-Traffic-Daten aus seinem Marketingbereich kombinieren, um das Kundenverhalten besser zu verstehen.

Eine 360-Grad-Kunden-Initiative hat zum Ziel, durch die Kombination von Daten aus verschiedenen Quellen ein vollständiges Bild des Kunden zu erstellen. Dies kann in einer zentralisierten Datenarchitektur eine Herausforderung darstellen, da die Daten oft in verschiedenen Abteilungen isoliert sind. Ein Data Mesh erleichtert dies erheblich, indem es eine standardisierte Möglichkeit bietet, auf Datenprodukte aus verschiedenen Bereichen wie Vertrieb, Marketing und Support zuzugreifen und diese zu kombinieren.

Im Finanzdienstleistungssektor kann ein Data Mesh für Echtzeit-Monitoring und Betrugserkennung eingesetzt werden. Eine Bank könnte beispielsweise ein Datenprodukt für Transaktionen und ein weiteres für Kundenanmeldedaten haben. Ein Betrugserkennungssystem kann dann auf beide Datenprodukte zugreifen, um verdächtige Aktivitäten zu identifizieren. Die dezentrale Struktur eines Data Mesh kann zur Geschwindigkeit und Zuverlässigkeit beitragen, die für solche Anwendungen erforderlich sind.

Da die Datenschutzbestimmungen immer komplexer werden, kann es schwierig sein, die Einhaltung in einem zentralisierten Datenmodell sicherzustellen. Ein Datennetz kann die Einhaltung gesetzlicher Vorschriften erleichtern, indem es Domänenteams ermöglicht, ihre eigenen Datenprodukte zu verwalten und sicherzustellen, dass diese den lokalen Gesetzen entsprechen. Dies ist besonders wichtig für multinationale Unternehmen, die in verschiedenen Ländern unterschiedliche Regeln zur Datenhoheit einhalten müssen.

Fortschrittliche KI-Anwendungen und Agents benötigen hochwertige, kontextreiche Daten, um effektiv zu funktionieren. In einem Data Mesh kuratieren Domainteams Daten speziell für diese Nutzung und sorgen dafür, dass sie bereinigt, gekennzeichnet und dokumentiert sind. Dies ermöglicht es Datenwissenschaftlern, Modelle mit zuverlässigen Eingabedaten zu trainieren, ohne übermäßig viel Zeit für die Datenaufbereitung aufwenden zu müssen. Darüber hinaus können KI-Agenten über APIs auf diese modularen Datenprodukte zugreifen, um Echtzeitinformationen abzurufen, wodurch sie komplexe Aufgaben in verschiedenen Geschäftsbereichen mit größerer Genauigkeit ausführen können.

Vorteile der Einführung eines Data-Mesh

Die Einführung eines Data Mesh kann für Unternehmen erhebliche Vorteile bringen. Durch den Übergang zu einem dezentralen Modell können Unternehmen die Engpässe traditioneller Architekturen überwinden und bessere Geschäftsergebnisse erzielen.


Agilität und Skalierbarkeit

Ein Data Mesh kann agiler sein. Die einzelnen Datendomains können unabhängig funktionieren, was es der Organisation ermöglicht, schneller zu wachsen und sich weiterzuentwickeln. Dadurch wird es einfacher, neue Datenprodukte und -dienste hinzuzufügen, ohne dass es zu Störungen kommt.

Datenqualität und Vertrauen

Ein Data Mesh ermöglicht die Zuordnung von Verantwortlichkeiten zu den Domänenteams, die die Daten erzeugen. Da die Domänenteams auch die Hauptnutzer ihrer eigenen Daten sind, haben sie ein starkes Interesse daran, deren Qualität sicherzustellen. Dies kann zu vertrauenswürdigeren Daten führen.

Kosteneffizienz

Ein Data Mesh kann Unternehmen auch helfen, kosteneffizienter zu werden. Bei einer zentralisierten Datenplattform müssen Teams oft auf ein zentrales Datenteam warten, das ihnen bei ihren Datenanforderungen hilft. Dies kann zu Verzögerungen und Ressourcenverschwendung führen.

Einheitliche Datenstruktur und zentrale Governance schaffen

Der Dataplex Universal Catalog fungiert als einheitliche Datenstruktur und bietet eine zentrale Governance-Ebene für Ihr Data Mesh. Er hilft Ihnen, Ihre verteilten Daten in verschiedenen Umgebungen zu entdecken, zu verwalten und zu steuern und stellt sicher, dass Sie eine einzige verlässliche Datenquelle für Metadaten und Richtlinien haben. Zuerst müssen Sie einen Dataplex-Lake erstellen. Ein Dataplex Lake ist ein übergeordneter Container, der Ihre Daten enthält und typischerweise einer Geschäftsdomäne zugeordnet ist.

Hier sind die Schritte zum Anlegen eines Lake:

  1. Gehen Sie in der Google Cloud Console zur Seite Dataplex Universal Catalog Lakes.
  2. Nachdem Sie auf „Erstellen“ geklickt haben, geben Sie Ihrem neuen Data Lake einen aussagekräftigen Namen, zum Beispiel „Vertriebsdatendomäne“ oder „Marketing-Datennetz“.
  3. Wählen Sie eine Region für Ihren Lake.
  4. Sobald der Lake angelegt ist, können Sie Zonen hinzufügen. Eine Zone ist eine Subdomain innerhalb Ihres Data Lakes, die ein bestimmtes Team oder einen bestimmten Datenvertrag repräsentiert. Innerhalb des Data Lake „Sales Data Domain“ könnten Sie beispielsweise eine Zone „Raw“ für unverarbeitete Daten und eine Zone „Curated“ für bereinigte, produktionsreife Daten erstellen.
  5. Nachdem Sie Zonen erstellt haben, können Sie diesen Assets zuweisen. Assets sind die eigentlichen Daten, die in einem Dienst wie Cloud Storage oder BigQuery gespeichert sind. Sie verweisen die Dataplex-Zone einfach auf den Speicherort Ihrer Daten.

Dataplex scannt diese Assets anschließend automatisch, um Metadaten zu finden und zu katalogisieren.

Entdeckung durch einen Datenprodukt-Marktplatz beschleunigen

Ein wesentlicher Bestandteil des Prinzips „Daten als Produkt“ ist die einfache Auffindbarkeit von Daten. Die BigQuery-Datenweitergabe ermöglicht es Ihnen, einen Marktplatz für Datenprodukte aufzubauen. Dies ermöglicht es Domänenteams, Datenprodukte sicher mit anderen Teams zu teilen, ohne die Daten kopieren oder verschieben zu müssen. Es hilft Datennutzern, die benötigten Daten zu finden, und bietet eine klare, gut definierte Schnittstelle für den Zugriff auf diese Daten.

Datenprodukte auf einer serverlosen Plattform erstellen und freigeben

Mit den serverlosen Diensten von Google Cloud können Domainteams eigene Datenprodukte mit minimalem Aufwand erstellen und verwalten. BigQuery ist ein leistungsstarkes, serverloses Data Warehouse, das es Teams ermöglicht, große Datensätze schnell und effizient zu analysieren. Dataflow ist ein serverloser Datenverarbeitungsdienst, mit dem Datenpipelines für Datenprodukte erstellt und automatisiert werden können. Diese Dienste verringern den Bedarf an einem zentralen Datenentwicklungsteam zur Verwaltung der Infrastruktur und machen Domänenteams autonomer und agiler.

Mit attributbasierter Zugriffssteuerung für Compliance sorgen

Das Prinzip der föderierten Rechensteuerung besteht darin, dass ein zentrales Team globale Regeln definiert, die dann aber von den Domänenteams durchgesetzt werden. Die Bedingungen des Identitäts- und Zugriffsmanagement (IAM) von Google Cloud liefern die Mittel, um dies umzusetzen. IAM-Bedingungen ermöglichen eine attributbasierte Zugriffssteuerung (ABAC, Attribute-Based Access Control), bei der Sie fein abgestufte Berechtigungen auf Basis von Datenattributen einrichten können. Sie können beispielsweise eine Richtlinie erstellen, die es einem Nutzer nur erlaubt, auf Kundendaten aus seiner Region zuzugreifen. So können Sie für die Einhaltung von Vorschriften zur Datenhoheit wie der DSGVO sorgen.

Meistern Sie Ihre geschäftlichen Herausforderungen mit Google Cloud

Neukunden erhalten ein Guthaben im Wert von 300 $ für Google Cloud.

Gleich loslegen

Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“ Produkte kennenzulernen.

Google Cloud