Dataplex ist eine Datenstruktur, die verteilte Daten vereinheitlicht und die Datenverwaltung und Governance für diese Daten automatisiert.
Mit Dataplex können Sie Folgendes tun:
- Erstellen Sie ein domainspezifisches Daten-Mesh für Daten, die ohne Datenverschiebung in mehreren Google Cloud-Projekten gespeichert sind.
- Daten mit einem einzigen Berechtigungssatz einheitlich steuern und überwachen.
- Mit Katalogfunktionen können Sie Metadaten über mehrere Silos hinweg suchen und auswählen. Weitere Informationen finden Sie in der Data Catalog-Übersicht.
- Metadaten können mit BigQuery und Open-Source-Tools wie SparkSQL, Presto und HiveQL sicher abgefragt werden.
- Verwaltungsaufgaben für die Datenqualität und den Datenlebenszyklus, einschließlich serverloser Spark-Aufgaben.
- Untersuchen Sie Daten in vollständig verwalteten, serverlosen Spark-Umgebungen mit einfachem Zugriff auf Notebooks und SparkSQL-Abfragen.
Vorteile von Dataplex
Unternehmen haben Daten, die auf Data Lakes, Data Warehouses und Data-Marts verteilt sind. Mit Dataplex haben Sie folgende Möglichkeiten:
- Daten erkennen
- Daten auswählen
- Daten ohne Datenverschiebung vereinheitlichen
- Daten nach Ihren Geschäftsanforderungen organisieren
- Zentrale Verwaltung, Beobachtung und Steuerung von Daten
Mit Dataplex können Sie Metadaten, Sicherheitsrichtlinien, Governance, Klassifizierung und Datenlebenszyklusverwaltung in diesen verteilten Daten standardisieren und vereinheitlichen.
Funktionsweise von Dataplex
Dataplex verwaltet Daten so, dass keine Datenverschiebung oder -duplizierung erforderlich ist. Wenn Sie neue Datenquellen identifizieren, werden die Metadaten von strukturierten und unstrukturierten Daten mithilfe von integrierten Datenqualitätsprüfungen ausgewertet, um die Integrität zu verbessern.
Dataplex registriert automatisch alle Metadaten in einem einheitlichen Metastore. Sie können auf Daten und Metadaten mit verschiedenen Diensten und Tools zugreifen, darunter:
- Google Cloud-Dienste wie BigQuery, Dataproc Metastore und Data Catalog
- Open-Source-Tools wie Apache Spark und Presto
Terminologie
Dataplex abstrahiert die zugrunde liegenden Datenspeichersysteme mit den folgenden Konstrukten:
Lake: Ein logisches Konstrukt, das eine Datendomain oder Geschäftseinheit darstellt. Wenn Sie beispielsweise Daten nach Gruppennutzung organisieren möchten, können Sie für jede Abteilung einen Lake einrichten (z. B. Einzelhandel, Vertrieb, Finanzen).
Zone: Eine Subdomain in einem Lake, die zum Kategorisieren von Daten verwendet wird. Beispiel:
- Phase: Beispiele: Landung, Rohdaten, ausgewählte Datenanalysen und ausgewählte Data Science.
- Verwendung: Zum Beispiel Datenvertrag.
- Einschränkungen: Das sind beispielsweise Sicherheitskontrollen und Zugriffsebenen für Nutzer.
Es gibt zwei Arten von Zonen: RAW und ausgewählt.
Rohzone: Enthält Daten im Rohformat und unterliegt keiner strengen Typprüfung.
Ausgewählte Zone: Enthält Daten, die bereinigt, formatiert und für Analysen bereit sind. Die Daten sind spalten-, Hive-partitioniert und in Parquet-, Avro-, Orc- oder BigQuery-Tabellen gespeichert. Die Daten werden beispielsweise einer Typprüfung unterzogen, um die Verwendung von CSV-Dateien zu verbieten, da sie für den SQL-Zugriff nicht so gut funktionieren.
Asset: Zuordnung zu Daten, die entweder in Cloud Storage oder BigQuery gespeichert sind. Sie können in separaten Google Cloud-Projekten gespeicherte Daten als Assets einer einzigen Zone zuordnen.
Entität: Metadaten für strukturierte und semistrukturierte Daten (Tabelle) und unstrukturierte Daten (Dateisatz).
Gängige Anwendungsfälle
In diesem Abschnitt werden gängige Anwendungsfälle für Dataplex beschrieben.
Ein domainorientiertes Data Mesh
Bei diesem Typ von Data Mesh werden Daten innerhalb eines Unternehmens in mehreren Domains organisiert, z. B. Vertrieb, Kunden und Produkte. Die Inhaberschaft der Daten kann dezentralisiert werden. Sie können Daten aus verschiedenen Domains abonnieren. Data Scientists und Datenanalysten können beispielsweise Daten aus verschiedenen Domains abrufen, um Geschäftsziele wie Machine Learning und Business Intelligence zu erreichen.
Im folgenden Diagramm werden Domains durch Dataplex-Signale dargestellt und sind im Besitz separater Datenersteller. Datenersteller sind für die Erstellung, Auswahl und Zugriffssteuerung in ihren Domains verantwortlich. Datennutzer können dann für die Analyse Zugriff auf die Lakes (Domains) oder Zonen (Subdomains) anfordern.
In diesem Fall müssen Datenverwalter einen ganzheitlichen Überblick über die gesamte Datenlandschaft erhalten.
Das Diagramm enthält die folgenden Elemente:
- Dataplex: Ein Mesh aus mehreren Datendomains.
- Domain: Lakes für Verkäufe, Kunden und Produktdaten
- Zone innerhalb einer Domain: Für einzelne Teams oder zum Verwalten verwalteter Datenverträge.
- Assets: Daten, die entweder in einem Cloud Storage-Bucket oder einem BigQuery-Dataset gespeichert sind und in einem separaten Google Cloud-Projekt von Ihrem Dataplex-Mesh-Netzwerk vorhanden sein können.
Sie können dieses Szenario erweitern, indem Sie Daten, die sich in Zonen befinden, in Roh- und ausgewählte Ebenen aufschlüsseln. Dazu können Sie Zonen für jede Perspektive einer Domain und Rohdaten oder ausgewählte Daten erstellen:
- Unverarbeitete Verkäufe
- Ausgewählte Angebote
- Rohdaten von Kunden
- Ausgewählte Nutzer
- Rohprodukte
- Ausgewählte Produkte
Datenstufen nach Verfügbarkeit
Ein weiterer häufiger Anwendungsfall ist, dass Ihre Daten nur für Data Engineers zugänglich sind und später verfeinert und für Data Scientists und Analysten verfügbar gemacht werden. In diesem Fall können Sie einen Lake so einrichten, dass er Folgendes enthält:
- Eine Rohzone für die Daten, auf die die Entwickler zugreifen können.
- Eine ausgewählte Zone für die Daten, die Data Scientists und Analysten zur Verfügung steht.
Nächste Schritte
- Erste Schritte mit Dataplex
- Data Mesh erstellen
- Lake erstellen
- Katalogfunktionen in Dataplex entdecken