Dataplex – Übersicht

Dataplex ist eine Datenstruktur, die verteilte Daten vereinheitlicht und automatisiert Datenmanagement und Governance für diese Daten.

Dataplex bietet Ihnen folgende Möglichkeiten:

  • Domainspezifisches Data Mesh für Daten erstellen, die in mehreren Google Cloud-Projekte ohne jegliche Datenverschiebung.
  • Daten mit nur einem Satz von Berechtigungen einheitlich steuern und überwachen
  • Mit Katalogfunktionen können Sie Metadaten in verschiedenen Silos finden und kuratieren. Weitere Informationen finden Sie in der Übersicht zu Dataplex-Katalog.
  • Metadaten mit BigQuery und Open-Source-Tools sicher abfragen, wie SparkSQL, Presto und HiveQL.
  • Aufgaben zur Verwaltung der Datenqualität und des Datenlebenszyklus ausführen, auch serverlos Spark-Aufgaben.
  • Daten in vollständig verwalteten, serverlosen Spark-Umgebungen mit einfachen Zugriff auf Notebooks und SparkSQL-Abfragen.

Vorteile von Dataplex

Die Daten sind in Unternehmen auf Data Lakes, Data Warehouses Data-Marts. Mit Dataplex haben Sie folgende Möglichkeiten:

  • Daten erkennen
  • Daten auswählen
  • Daten ohne jegliche Datenverschiebung vereinheitlichen
  • Daten basierend auf Ihren Geschäftsanforderungen organisieren
  • Daten zentral verwalten, überwachen und steuern

Mit Dataplex können Sie Metadaten standardisieren und vereinheitlichen, Sicherheitsrichtlinien, Governance, Klassifizierung und Verwaltung des Datenlebenszyklus in diesen verteilten Daten verwendet werden.

Image

Funktionsweise von Dataplex

Dataplex verwaltet Daten so, dass keine Datenverschiebung erforderlich ist oder Vervielfältigung. Wenn Sie neue Datenquellen ermitteln, erfasst die Metadaten sowohl für strukturierte als auch für unstrukturierte Daten mithilfe von integrierten Datenqualitätsprüfungen zur Verbesserung der Integrität.

Dataplex registriert alle Metadaten automatisch in einem einheitlichen Metastore. Sie können mithilfe verschiedener Dienste und Tools auf Daten und Metadaten zugreifen einschließlich der folgenden:

  • Google Cloud-Dienste wie BigQuery, Dataproc Metastore, Data Catalog
  • Open-Source-Tools wie Apache Spark und Presto

Terminologie

Dataplex abstrahiert die zugrunde liegenden Datenspeichersysteme, mithilfe der folgenden Konstrukte:

  • Lake: Ein logisches Konstrukt, das eine Datendomain oder Geschäftseinheit darstellt. Für Wenn Sie Daten basierend auf der Gruppennutzung organisieren möchten, können Sie beispielsweise für jeden Abteilung, z. B. Einzelhandel, Vertrieb oder Finanzen.

  • Zone: Eine Subdomain in einem Lake, die nützlich ist, um Daten zu kategorisieren, Folgendes:

    • Phase: Zum Beispiel Landingpage, Rohdaten, kuratierte Datenanalysen und kuratierte Daten Wissenschaft.
    • Verwendung: z. B. Datenvertrag.
    • Einschränkungen, z. B. Sicherheitskontrollen und Nutzerzugriffsebenen.

    Es gibt zwei Arten von Zonen: RAW- und kuratierte Zonen.

    • Raw-Zone: Enthält Daten im Rohformat, die nicht strenge Typüberprüfungen.

    • Ausgewählte Zone: Enthält Daten, die bereinigt, formatiert und einsatzbereit sind. Analytics. Die Daten sind spaltenbasiert, Hive-partitioniert und werden in Parquet gespeichert. Avro-, Orc-Dateien oder BigQuery-Tabellen. Daten durchlaufen Typprüfung, z. B. um die Verwendung von CSV-Dateien zu verbieten, für SQL-Zugriffe weniger gut funktionieren.

  • Asset: Zuordnung zu Daten, die entweder in Cloud Storage oder BigQuery gespeichert sind. Sie können Daten, die in separaten Google Cloud-Projekten gespeichert sind, einem in einer einzelnen Zone.

  • Entität: Steht für Metadaten für strukturierte und semistrukturierte Daten (Tabelle) und unstrukturierte Daten (Dateisatz).

Gängige Anwendungsfälle

In diesem Abschnitt werden häufige Anwendungsfälle für die Verwendung von Dataplex beschrieben.

Ein domainorientiertes Data Mesh

Bei dieser Art von Data Mesh sind Daten in mehreren Domains innerhalb eines Enterprise, z. B. Vertrieb, Kunden und Produkte. Eigentum an den Daten dezentralisiert werden. Sie können Daten von verschiedenen Domains abonnieren. Für Datenwissenschaftler und Datenanalysten können Daten aus verschiedenen Bereichen abrufen, Geschäftsziele wie Machine Learning und Business Intelligence zu erreichen.

Im folgenden Diagramm werden Domains durch Dataplex dargestellt Data Lakes und separaten Datenerstellern. Datenproduzenten eigene Inhalte, Auswahl und Zugriffssteuerung in ihren Domains. Datenkonsumenten können dann Zugriff auf die Lakes (Domains) oder Zonen (Subdomains) für ihre Analyse.

Data Mesh erstellen

In diesem Fall müssen die Datenverwaltungen eine ganzheitliche Sicht auf die gesamten Daten zu verbessern.

Dieses Diagramm enthält die folgenden Elemente:

  • Dataplex: Ein Mesh-Netzwerk aus mehreren Datendomains.
  • Domain: Lakes für Vertrieb, Kunden und Produktdaten.
  • Zone innerhalb einer Domain: für einzelne Teams oder zum Bereitstellen verwalteter Daten Verträge.
  • Assets: Daten, die in einem Cloud Storage-Bucket oder einem BigQuery-Dataset, das in einer separaten Google Cloud vorhanden sein kann aus Ihrem Dataplex-Mesh abgerufen.

Sie können dieses Szenario erweitern, indem Sie Daten innerhalb der Zonen in Rohdaten untergliedern. und ausgewählte Ebenen. Sie können diesen Ansatz erreichen, indem Sie Zonen für jede Permutation einer Domain und Rohdaten oder kuratierte Daten:

  • Rohumsatz
  • Ausgewählte Verkäufe
  • Bestandskund*innen
  • Ausgewählte Kunden
  • Rohprodukte
  • Ausgewählte Produkte

Data Tiering basierend auf der Bereitschaft

Ein weiterer häufiger Anwendungsfall ist, wenn Ihre Daten nur für Data Engineers zugänglich sind, und wird später optimiert und für Data Scientists und Analysten verfügbar gemacht. In In diesem Fall können Sie einen Lake so einrichten, dass Folgendes möglich ist:

  • Eine Rohzone für die Daten, auf die das Engineering-Team zugreifen kann.
  • Eine ausgewählte Zone für die Daten, die den Data Scientists zur Verfügung stehen Analysefachkräften.

Lakes und Zonen

Nächste Schritte