Datenanalysen

Die nächste Evolutionsstufe von Datenräumen (Data Spaces) - Teil 1/3

20. September 2024

https://storage.googleapis.com/gweb-cloudblog-publish/images/databases_YTIsqAD.max-2600x2600.max-1800x1800.jpg

Google Cloud Content & Editorial

Authoren: Andreas Mayer (Senior Principal Architect, Europe North), Thomas Baumgart (Principal Architect, Google Cloud)

Datenräume erreichen die nächste Phase ihrer Evolution. Diverse Konsortien wie beispielsweise Catena-X (Automotive) oder Manufacturing-X (Plattform Industrie 4.0) wurden gegründet und haben bereits damit begonnen, an wichtigen, teils industrieübergreifenden Anwendungsfällen zu arbeiten. Die Adaption solcher Initiativen hängt sehr stark vom Wert ab, den neue Nutzer darin sehen, also dem erzielten Ergebnis. Time-to-market ist ein kritischer Faktor, um das Ökosystem zu erweitern. Gleichzeitig kann die Skalierung von Lösungen auf vielen Ebenen, sowohl organisatorisch als auch technisch, problematisch sein. Wir glauben, dass Technologiepartner wie Google komplettierende Lösungen hierfür bereitstellen können.

In dieser Blogpost-Serie werden wir darauf eingehen, weshalb Datenräume neue Potenziale bieten können und zeigen, warum ein offener Ansatz hinsichtlich kommerzieller Lösungen wichtig ist. Teil 1 gibt eine Übersicht über die Potenziale von Datenräumen und skizziert einige wichtige Governance Aspekte. Teil 2 befasst sich mit der Frage, weshalb der Austausch von Daten allein nicht ausreicht, wie Wissen generiert werden kann und geht auf das Thema Consumption Time Data Processing ein. In Teil 3 stellen wir Ihnen konkrete, spannende Beispiele vor, die illustrieren sollen, wie Datenraum-Initiativen durch die Nutzung marktführender Technologien, die eigens gesteckten Ziele schneller erreichen können.

Das Potenzial von Datenräumen

Unternehmen existieren nicht in isolierten Umgebungen. In der heutigen digitalen Realität ist es umso wichtiger, mit Partnern zusammenzuarbeiten, damit man sich auf das Kerngeschäft konzentrieren und gleichzeitig innovativ bleiben kann. Aristoteles sagte: "Das Ganze ist mehr als die Summe seiner Teile.” Genau diese Idee kommt im Kontext der Datenräume zum Tragen.

Wenn man sich zwei Unternehmen aus einer Industriesparte ansieht und miteinander vergleicht, dann würde es diverse Überlappungen geben. Sie arbeiten im selben Markt, sie konkurrieren ggf. um die gleichen Kunden, sie haben grundsätzlich ähnliche Geschäftsprozesse, usw. Es gibt allerdings auch feine Unterschiede, die sich über die Zeit herausgebildet haben. Dies könnte beispielsweise in der Unternehmenskultur begründet sein oder durch die Art und Weise, wie im Unternehmen zusammengearbeitet wird. Unternehmen haben also ein implizites Muskelgedächtnis (Englisch, ‘muscle memory’) entwickelt, das beeinflusst, wie Probleme angegangen werden - und hier gibt es ggf. drastische Unterschiede zwischen vermeintlich gleichen Unternehmen. Wenn diese Energien in einem kreativen Raum zusammenkommen, um gemeinsam neue Lösungsansätze für bestehende Probleme zu entwickeln, dann verstärken sich diese individuellen Ausprägungen gegenseitig und es entsteht Innovation. Lösungen, die aus solchen Initiativen entstehen, können deutlich überzeugender, effektiver und inklusiver sein, als wenn alles so wie immer gemacht wird.

Datenräume bieten daher Potenziale, die wir heute vermutlich noch nicht komplett abschätzen können. Getreu dem Motto “seeing is believing” müssen Erfolge erst sichtbar gemacht werden, bevor das Interesse an diesem Thema, über die Grenzen der aktuellen Partizipanten hinaus, deutlich zunimmt.

Ein konzeptionelles Dilemma hinsichtlich dieser Idee ist, dass Unternehmen in der Regel nicht veranlagt sind, Informationen die einen Wert besitzen, freizügig und bereitwillig mit anderen zu teilen, da sie diese Informationen, verständlicherweise, zum eigenen Vorteil nutzen möchten - sei es im Bereich Wissensgenerierung oder Monetarisierung. Außerdem ist es häufig schwierig den Wert von Information abzuschätzen. Der Ansatz, einfach alle möglichen Daten mit einer Gruppe zu teilen, sei diese auch wohldefiniert, stößt daher bereits auf der kulturellen Ebene an seine Grenzen. Vertrauen und klare Spielregeln können dabei helfen, die Bereitschaft zum proaktiven Teilen zu erhöhen.

Eine Möglichkeit, die Governance Funktionen bereits von Beginn an als zentrale Komponente zu integrieren, bieten Datenräume, welche das Fundament einer Datenökonomie bilden können. Ein zentraler Bestandteil dieses Ansatzes ist ein Marktplatz, auf dem Daten angeboten und konsumiert werden können. Zentrale Rollen sind dementsprechend Datenanbieter und Datenkonsumenten. Monetäre Aspekte können hierbei eine Rolle spielen, müssen es aber nicht. Eine Datenökonomie kann sowohl innerhalb einer Organisation entstehen, als auch über Unternehmensgrenzen hinweg. Wie bereits beschrieben, steigt der potenzielle Wert durch weitere Teilnehmer an. Innerhalb von Datenräumen gibt es zahlreiche Mechanismen, die für Vertrauen und einheitliche Spielregeln sorgen sollen. Hierbei kann es sich um Konsortialverträge, technische Maßnahmen sowie um datenschutzrechtliche Themen handeln. Weitere wichtige Aspekte, auf die wir in diesem Blog Post nicht weiter eingehen können, sind u.a. Sicherheit, Compliance, Auffindbarkeit von Daten, Zugriffskontrolle, Nutzungsbeschränkungen und -richtlinien, Richtliniendurchsetzung und Vergütungsmodelle.

Datenräume können also die Grundlage für eine unternehmens-, sektor- und länderübergreifende Datenökonomie sein. Es gibt allerdings eine Lücke, die diese Initiativen nicht völlig autonom schließen können. Ohne Technologien, die außerhalb des Datenraumes entstanden sind, ggf. von Unternehmen, die mit dem Datenraum an sich nichts zu tun haben, wird es unglaublich schwer, einige Herausforderungen bestimmter Industrien zu adressieren. Das würde nämlich voraussetzen, dass die gesamte Innovation der vom Datenraum aus betrachteten externen Welt noch einmal innerhalb des Datenraumes repliziert werden müsste. Es leuchtet ein, dass das keinen Sinn machen würde. Dieses Problem kann nur teilweise durch freie und quelloffene Software (FOSS) adressiert werden, da spezialisiertes geistiges Eigentum für bestimmte Anwendungsfälle die beste Lösung sein kann, selbst wenn es sich um eine proprietäre und kommerzielle Lösung handeln sollte. Wichtig ist in erster Linie, welcher Wert durch den Einsatz einer Technologie geschaffen wird. “Wert” ist in diesem Kontext nicht nur auf das zu erzielende Ergebnis zu verstehen, sondern muss natürlich weitere Faktoren wie, unter anderem, eine Risikobetrachtung mit einschließen.

Ein Gedankenexperiment soll verdeutlichen, wovon wir sprechen: Stellen Sie sich vor, ein Konsortium, um einen Datenraum herum, müsste zwischen 10.000 und 100.000 Entwickler-Jahre investieren, um eine Datenplattform bereitzustellen, die auf planetarer Ebene beliebig skalieren kann, datenschutzrechtliche Anforderungen erfüllt, sicher ist usw., um diese Plattform anschließend zur Realisierung der anvisierten Anwendungsfälle nutzen zu können. Eine Alternative zu diesem hohen Investment wäre beispielsweise Google Cloud BigQuery zu nutzen. Während BigQuery gemeinhin als sichere, skalierbare Petabyte-Scale Data Lakehouse Lösung verstanden wird, handelt es sich außerdem um eine Data Collaboration Plattform, die sowohl innerhalb von Google als auch von Kunden genutzt wird, um Daten innerhalb des Unternehmens, oder mit dritten Parteien, sicher und kontrolliert zu teilen. BigQuery ist damit in der Lage, einen Data Space auf konzeptioneller Ebene zu realisieren.

Die Abwägung fällt in diesem Fall leicht. Macht es mehr Sinn ein kommerzielles Produkt zu nutzen und sofort mit der Arbeit zu starten, oder etwas eigenes zu entwickeln und dann erst in vielen Jahren starten zu können? Während der eigene Fokus auf das interne Projekt gerichtet ist, geht Innovation in der externen Welt natürlich ungebremst weiter. Ganz davon abgesehen benötigt man zur erfolgreichen Umsetzung eines solchen Projekts sehr spezialisiertes Know-How, welches nicht ubiquitär am Markt verfügbar ist. Die Kosten sowie die operativen Herausforderungen an einen professionellen Betrieb einer so komplexen Infrastruktur dürfen nicht unterschätzt werden. Managed Services bieten hier interessante Möglichkeiten, um die operativen Aufwände zu reduzieren. Dieses Beispiel ist extra stark vereinfacht dargestellt und es gibt im Data und Analytics Umfeld tolle Softwarelösungen im Open Source Bereich, diese erfordern aber ebenfalls sehr viel Know-How und nicht alle Unternehmen arbeiten mit denselben Tools. Aus diesem Grund wäre selbst in solch einem Szenario ein hoher Aufwand notwendig, um alle Teilnehmenden auf ein einheitliches Niveau zu bringen, um Fortschritte bei der Eigenentwicklung zu erzielen.

Das grundsätzliche Ziel, sich nicht zu stark von einem Anbieter abhängig machen zu wollen, ist klar. Hier plädieren wir dafür, die Regeln im Kernbereich eines Datenraumes strikt zu halten, aber im peripheren Bereich eher auf Interoperabilität zu setzen. Das grundsätzliche Prinzip, Portabilität im Kern und Interoperabilität in der Peripherie zu haben [1], beschreibt diesen Ansatz sehr gut. Ein perfektes Beispiel hierfür ist AlloyDB for PostgreSQL, da dieses Produkt aufgrund einer 100%-Kompatibilität zu Open-Source PostgreSQL ein hohes Maß an Portabilität ermöglicht.

Zwei Schlüsselelemente, welche diesen Ansatz unterstützen, sind ein starker Fokus auf Sicherheit, sowie die Datensouveränität. Der EDC Connector (früher IDS-Connector) ist ein technisches Mittel, um die geforderten Kontrollmechanismen im Hinblick auf die Datennutzung zu implementieren. Da die Wertschöpfung auf Daten aber nicht vollumfänglich innerhalb dieses technischen Elementes erfolgen wird, und Daten die sog. trust boundary somit auch verlassen werden, kann dieses Mittel alleine nicht als ausreichend angesehen werden, um Vertrauen herzustellen. Es wird also immer wieder Fälle geben, in denen Softwarelösungen externer Anbieter genutzt werden, die mit den datenraumspezifischen Technologien wie dem EDC Connector nichts zu tun haben und deren Einsatz trotzdem sinnvoll und richtig ist. Ein dogmatischer Fokus auf definierte Regeln und Ambitionen kann Innovation daher ausbremsen oder sogar verhindern.

Datenräume und deren technische Enabler

Die neuen Möglichkeiten der Vernetzung, wie die kontextualisierte Verknüpfung von Datenquellen zwischen Providern und Konsumenten, bringen einiges an Fragen hinsichtlich der Beherrschbarkeit der damit verbundenen Komplexität mit sich. Neben den bereits beschriebenen technischen und operationellen Fragestellungen, die z.B. durch Themen wie Sicherheit und Verfügbarkeit geprägt werden, spielen insbesondere organisatorische Themen eine Rolle. Die Klassifizierung von Daten in Datenkategorien (wie bspw. Schutzbedarf) ist eine Grundvoraussetzung, um später im spezifischen Kontext einer Fragestellung die richtigen Daten heranziehen zu können. Dies beinhaltet neben Aspekten wie Aktualität und Qualität selbstverständlich auch Fragen in den Bereichen Datenschutz, Regulatorik, Nutzungsbedingungen und -konformität, nämlich, welche Daten dürfen gegebenenfalls nicht verwendet werden. Die Nutzungsbedingungen beinhalten auch Fragen rund um das Thema der Weitergabe und Verknüpfung von Daten.

Sowohl die Industrie als auch Bereiche der öffentlichen Verwaltung haben das erkannt und arbeiten daran, diese Herausforderungen durch entsprechende Initiativen zu adressieren. Eine noch in der Planung befindliche Initiative ist die vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) sowie dem Bundesministerium des Innern und für Heimat (BMI) getriebene Initiative eines zentralen “Dateninstituts”. Dieses strebt im Kern die Rolle einer Anlaufstelle für Datenraum-Projekte aus Verwaltung, Wissenschaft und Wirtschaft an und hat es sich explizit zum Ziel gesetzt, beratend und begleitend bei der Entwicklung von Anwendungsfällen und Governance-Mechanismen mitzuwirken. Die Institution möchte gemeinsam mit Vertretern aus den oben genannten Gruppen die Bedürfnisse und Herausforderungen von Daten-Ökosystemen überwachen und daraus Best Practices und Standards ableiten, welche zu einer besseren datentechnischen Vernetzung über Sektorengrenzen hinweg beitragen sollen.

Initiativen wie die hier beschriebenen, werden zweifelsohne dazu beitragen, die Einstiegshürde in die Etablierung von Datenräumen zu reduzieren und deren einfache Integration in domänenspezifische Analyseverfahren, Prozesse und Abläufe zu vereinfachen.

Um globale, anbieterübergreifende Datenökosysteme, beispielsweise im Kontext von Lieferketten, bereitstellen zu können, ist der Einsatz spezifischer Architekturen und Technologien erforderlich. Google ist global führend im Bereich der Verarbeitung und Analyse von riesigen Datenmengen und bietet Unternehmen die eigene Technologie zur Umsetzung ihrer Geschäftsprozesse an.

Nächste Schritte

Wir haben gezeigt, dass Google Cloud kommerzielle Lösungen anbieten kann, die sogar für den sensiblen Kernbereich von Datenräumen in Frage kommen. Dies wird neben der frühen strategischen Ausrichtung von Google Cloud auf Souveränität auch durch die Offenheit von Lösungen wie AlloyDB Omni dokumentiert, welche neben der beschriebenen Postgres-Kompatibilitäts-gestützten Daten- und Software-Portabilität auch das Thema Plattform-Portabilität adressiert. Die Annahme, dass die Nutzung von kommerziellen Softwarelösungen zwangsläufig zu starkem Vendor Lock-In führt, konnten wir damit widerlegen. Wir empfehlen daher allen Entscheidungsträgern, die sich im Kontext von Datenräumen bewegen, etwaige Grundsatzentscheidungen hinsichtlich kommerzieller Softwarenutzung nochmals zu überdenken.

Im zweiten Teil dieser Reihe wird es um die Frage gehen, weshalb der Austausch von Daten allein nicht ausreicht und wie Wissen generiert werden kann, welches wiederum als Treiber für neue Wertschöpfung dient.

Referenzen

[1] Holfelder, W., Mayer, A., Baumgart, T. (2022). Sovereign Cloud Technologies for Scalable Data Spaces. In: Otto, B., ten Hompel, M., Wrobel, S. (eds) Designing Data Spaces . Springer, Cham. https://doi.org/10.1007/978-3-030-93975-5_25

Gepostet in