Dataplex – Übersicht

Dataplex ist eine Datenstruktur, die verteilte Daten vereinheitlicht und die Datenverwaltung und -Governance für diese Daten automatisiert.

Mit Dataplex können Sie Folgendes tun:

  • Erstellen Sie ein domainspezifisches Data Mesh für Daten, die in mehreren Google Cloud-Projekten gespeichert sind, ohne dass Daten verschoben werden müssen.
  • Mit nur einem Satz von Berechtigungen können Sie Daten einheitlich steuern und überwachen.
  • Mithilfe von Katalogfunktionen können Sie Metadaten in verschiedenen Silos ermitteln und auswählen. Weitere Informationen finden Sie in der Übersicht zu Data Catalog.
  • Metadaten mithilfe von BigQuery und Open-Source-Tools wie SparkSQL, Presto und HiveQL sicher abfragen.
  • Führen Sie Datenqualitäts- und Datenlebenszyklus-Verwaltungsaufgaben aus, einschließlich serverloser Spark-Aufgaben.
  • Untersuchen Sie Daten in vollständig verwalteten, serverlosen Spark-Umgebungen mit einfachem Zugriff auf Notebooks und SparkSQL-Abfragen.

Vorteile von Dataplex

Unternehmen haben Daten, die auf Data Lakes, Data Warehouses und Data-Marts verteilt sind. Mit Dataplex können Sie Folgendes tun:

  • Daten erkennen
  • Daten auswählen
  • Daten ohne Verschiebung vereinheitlichen
  • Daten basierend auf Ihren Geschäftsanforderungen organisieren
  • Daten zentral verwalten, überwachen und steuern

Mit Dataplex können Sie Metadaten, Sicherheitsrichtlinien, Governance, Klassifizierung und Verwaltung des Datenlebenszyklus über diese verteilten Daten hinweg standardisieren und vereinheitlichen.

Image

Funktionsweise von Dataplex

Dataplex verwaltet Daten so, dass keine Datenverschiebung oder -duplizierung erforderlich ist. Beim Identifizieren neuer Datenquellen erfasst Dataplex die Metadaten sowohl für strukturierte als auch für unstrukturierte Daten und verwendet dabei integrierte Datenqualitätsprüfungen, um die Integrität zu verbessern.

Dataplex registriert automatisch alle Metadaten in einem einheitlichen Metaspeicher. Sie können auf Daten und Metadaten mit verschiedenen Diensten und Tools zugreifen, darunter:

  • Google Cloud-Dienste wie BigQuery, Dataproc Metastore und Data Catalog
  • Open-Source-Tools wie Apache Spark und Presto

Terminologie

Dataplex abstrahiert die zugrunde liegenden Datenspeichersysteme mit den folgenden Konstrukten:

  • Lake: Ein logisches Konstrukt, das eine Datendomain oder Geschäftseinheit darstellt. Wenn Sie beispielsweise Daten basierend auf der Gruppennutzung organisieren möchten, können Sie für jede Abteilung (z. B. Einzelhandel, Vertrieb, Finanzen) einen Lake einrichten.

  • Zone: Eine Subdomain innerhalb eines Lakes. Hier können Daten nach folgenden Kriterien kategorisiert werden:

    • Phase: Zum Beispiel Landing, Rohdaten, kuratierte Datenanalyse und ausgewählte Datenwissenschaft.
    • Nutzung: Zum Beispiel Datenvertrag.
    • Einschränkungen: z. B. Sicherheitskontrollen und Nutzerzugriffsebenen

    Es gibt zwei Arten von Zonen: Roh- und kuratierte Zonen.

    • Rohzone: Enthält Daten im Rohformat, die keiner strengen Typprüfung unterliegen.

    • Ausgewählte Zone: Enthält Daten, die bereinigt und formatiert wurden, sodass sie analysiert werden können. Die Daten sind spaltenweise, Hive-partitioniert und in Parquet-, Avro-, Orc-Dateien oder BigQuery-Tabellen gespeichert. Die Daten werden einer Typprüfung unterzogen, z. B. um die Verwendung von CSV-Dateien zu unterbinden, da sie für den SQL-Zugriff weniger gut geeignet sind.

  • Asset: Wird Daten zugeordnet, die in Cloud Storage oder BigQuery gespeichert sind. Sie können Daten, die in separaten Google Cloud-Projekten als Assets gespeichert sind, einer einzigen Zone zuordnen.

  • Entität: Stellt Metadaten für strukturierte und semistrukturierte Daten (Tabelle) sowie für unstrukturierte Daten (Dateisatz) dar.

Gängige Anwendungsfälle

In diesem Abschnitt werden häufige Anwendungsfälle für die Verwendung von Dataplex beschrieben.

Ein domainzentriertes Data Mesh

Bei dieser Art von Data-Mesh-Netzwerk werden Daten innerhalb eines Unternehmens in mehrere Domains organisiert, z. B. Vertrieb, Kunden und Produkte. Das Eigentum an den Daten kann dezentralisiert werden. Sie können Daten von verschiedenen Domains abonnieren. Beispielsweise können Data Scientists und Datenanalysten Daten aus verschiedenen Bereichen abrufen, um Geschäftsziele wie Machine Learning und Business Intelligence zu erreichen.

Im folgenden Diagramm werden Domains durch Dataplex-Lakes dargestellt und gehören separaten Datenerstellern. Datenersteller sind für die Erstellung, Auswahl und Zugriffssteuerung in ihren Domains verantwortlich. Datenkonsumenten können dann für ihre Analyse Zugriff auf die Lakes (Domains) oder Zonen (Subdomains) anfordern.

Data-Mesh-Netzwerk erstellen

In diesem Fall müssen Data Stewards einen ganzheitlichen Blick auf die gesamte Datenlandschaft behalten.

Dieses Diagramm enthält die folgenden Elemente:

  • Dataplex: Ein Mesh-Netzwerk aus mehreren Datendomains.
  • Domain: Lakes für Verkäufe, Kunden und Produktdaten.
  • Zone innerhalb einer Domain: Für einzelne Teams oder zum Bereitstellen verwalteter Datenverträge.
  • Assets: Daten, die entweder in einem Cloud Storage-Bucket oder einem BigQuery-Dataset gespeichert sind, die sich in einem anderen Google Cloud-Projekt als in Ihrem Dataplex-Mesh befinden können.

Sie können dieses Szenario erweitern, indem Sie Daten, die sich innerhalb von Zonen befinden, in Roh- und kuratierte Ebenen aufschlüsseln. Sie können diesen Ansatz erreichen, indem Sie Zonen für jede Permutation einer Domain und Roh- oder kuratierte Daten erstellen:

  • Umsatz (Rohdaten)
  • Ausgewählte Angebote
  • Rohkund*innen
  • Ausgewählte Kunden
  • Rohe Produkte
  • Ausgewählte Produkte

Data Tiering auf Basis der Bereitschaft

Ein weiterer häufiger Anwendungsfall ist, dass Ihre Daten nur für Data Engineers zugänglich sind und später verfeinert und für Data Scientists und Analysten zur Verfügung gestellt werden. In diesem Fall können Sie einen Lake so einrichten:

  • Eine Rohzone für die Daten, auf die das Engineering-Team zugreifen kann.
  • Eine ausgewählte Zone für die Daten, die Data Scientists und Analysten zur Verfügung stehen.

Lakes und Zonen

Nächste Schritte