Dataplex ist eine Datenstruktur, die verteilte Daten vereinheitlicht und die Datenverwaltung und Governance für diese Daten automatisiert.
Mit Dataplex haben Sie folgende Möglichkeiten:
- Erstellen Sie ein domainspezifisches Data Mesh über Daten hinweg, die in mehrerenGoogle Cloud -Projekten gespeichert sind, ohne dass Daten verschoben werden müssen.
- Daten mit einer einzigen Berechtigungsgruppe einheitlich verwalten und überwachen
- Mithilfe von Katalogfunktionen Metadaten in verschiedenen Silos finden und zusammenstellen Weitere Informationen finden Sie in der Dataplex Catalog-Übersicht.
- Metadaten mit BigQuery und Open-Source-Tools wie Spark SQL, Presto und HiveQL sicher abfragen
- Aufgaben zur Datenqualität und zum Datenlebenszyklus ausführen, einschließlich serverloser Spark-Aufgaben
- (Eingestellt) Explorative Datenanalyse mit vollständig verwalteten, serverlosen Spark-Umgebungen mit Zugriff auf Notebooks und Spark SQL-Abfragen.
Vorteile von Dataplex
Unternehmen haben Daten, die auf Data Lakes, Data Warehouses und Data Marts verteilt sind. Mit Dataplex haben Sie folgende Möglichkeiten:
- Daten erkennen
- Daten auswählen
- Daten ohne Datenverschiebung zusammenführen
- Daten anhand Ihrer Geschäftsanforderungen organisieren
- Daten zentral verwalten, überwachen und steuern
Mit Dataplex können Sie Metadaten, Sicherheitsrichtlinien, Governance, Klassifizierung und Datenlebenszyklusverwaltung für diese verteilten Daten standardisieren und vereinheitlichen.
Funktionsweise von Dataplex
Dataplex verwaltet Daten so, dass keine Datenbewegung oder Duplizierung erforderlich ist. Wenn Sie neue Datenquellen identifizieren, erfasst Dataplex die Metadaten sowohl von strukturierten als auch unstrukturierten Daten. Dabei kommen integrierte Datenqualitätsprüfungen zum Einsatz, um die Integrität zu verbessern.
Dataplex registriert automatisch alle Metadaten in einem einheitlichen Metastore. Sie können über verschiedene Dienste und Tools auf Daten und Metadaten zugreifen, darunter:
- Google Cloud Dienste wie BigQuery, Dataproc Metastore und Data Catalog.
- Open-Source-Tools wie Apache Spark und Presto
Terminologie
Dataplex abstrahiert die zugrunde liegenden Datenspeichersysteme mithilfe der folgenden Konstrukte:
Lake: Ein logisches Konstrukt, das eine Datendomain oder eine Geschäftseinheit darstellt. Wenn Sie Daten beispielsweise nach Gruppennutzung organisieren möchten, können Sie einen Data Lake für jede Abteilung einrichten (z. B. Einzelhandel, Vertrieb, Finanzen).
Zone: Eine Subdomain innerhalb eines Data Lakes, die sich zum Kategorisieren von Daten nach folgenden Kriterien eignet:
- Phase: z. B. Landing, Rohdaten, Analyse kuratierter Daten und Datenwissenschaft
- Verwendung: z. B. Datenvertrag
- Einschränkungen: z. B. Sicherheitsmaßnahmen und Zugriffsebenen für Nutzer
Es gibt zwei Arten von Zonen:
Raw-Zone: Enthält Daten im Rohformat, die keiner strengen Typprüfung unterliegen.
Ausgewählte Zone: Enthält Daten, die bereinigt, formatiert und für Analysen bereit sind. Die Daten sind spaltenbasiert, mit Hive partitioniert und in Parquet-, Avro-, Orc-Dateien oder BigQuery-Tabellen gespeichert. Die Daten werden einer Typprüfung unterzogen, um beispielsweise die Verwendung von CSV-Dateien zu verhindern, da sie beim SQL-Zugriff nicht so leistungsfähig sind.
Asset: Daten, die entweder in Cloud Storage oder BigQuery gespeichert sind. Sie können Daten, die in separaten Google Cloud Projekten als Assets gespeichert sind, einer einzelnen Zone zuordnen.
Entität: Stellt Metadaten für strukturierte und semistrukturierte Daten (z. B. Tabellen) und unstrukturierte Daten (z. B. Dateisätze) dar.
Gängige Anwendungsfälle
In diesem Abschnitt werden gängige Anwendungsfälle für Dataplex beschrieben.
Ein domainzentriertes Daten-Mesh
Bei dieser Art von Datennetzwerk werden Daten in mehreren Domains innerhalb eines Unternehmens organisiert, z. B. Sales
, Customers
und Products
. Sie können die Eigentumsrechte an den Daten dezentralisieren. Sie können Daten aus verschiedenen Domains abonnieren. So können Data Scientists und Datenanalysten beispielsweise auf verschiedene Bereiche zurückgreifen, um Geschäftsziele wie maschinelles Lernen und Business Intelligence zu erreichen.
Im folgenden Diagramm werden Domains durch Dataplex-Lakes dargestellt und sind Eigentum verschiedener Datenersteller. Datenersteller sind für die Erstellung, Kuratierung und Zugriffssteuerung in ihren Domains verantwortlich. Datennutzer können dann für ihre Analyse Zugriff auf die Datenspeicher (Domains) oder Zonen (Subdomains) anfordern.
In diesem Fall müssen Datenverwalter einen ganzheitlichen Überblick über die gesamte Datenlandschaft behalten.
Dieses Diagramm enthält die folgenden Elemente:
- Dataplex: ein Mesh aus mehreren Datendomänen
- Domain: Datenseen für
Sales
-,Customers
- undProduct
-Daten - Zone innerhalb einer Domain: für einzelne Teams oder zum Bereitstellen von Verträgen für verwaltete Daten
- Assets: Daten, die entweder in einem Cloud Storage-Bucket oder in einem BigQuery-Dataset gespeichert sind. Sie können sich in einem separaten Google CloudProjekt von Ihrem Dataplex-Mesh befinden.
Sie können dieses Szenario erweitern, indem Sie Daten innerhalb von Zonen in Roh- und ausgewählte Ebenen unterteilen. Dazu können Sie Zonen für jede Permutation einer Domain und Roh- oder kuratierte Daten erstellen:
- Umsatz (roh)
- Ausgewählte Verkäufe
- Kunden (roh)
- Von Nutzern zusammengestellt
- Produkte – Rohdaten
- Ausgewählte Produkte
Datenstufen basierend auf der Bereitschaft
Ein weiterer häufiger Anwendungsfall ist, wenn Ihre Daten nur für Data Engineers zugänglich sind und später verfeinert und für Data Scientists und Analysten verfügbar gemacht werden. In diesem Fall können Sie einen See so einrichten, dass er Folgendes hat:
- Eine Landingzone für die Daten, auf die die Entwickler zugreifen können.
- Eine Rohzone für die Daten, die für Data Scientists und Analysten verfügbar sind.