Data Mesh-Konzepte

Bevor Sie mit der detaillierten Anleitung zur Bereitstellung von Data Mesh mit dem Google Cloud Cortex Framework beginnen, erhalten Sie auf dieser Seite grundlegende Informationen dazu, wie relevante Data Mesh-Konzepte im Allgemeinen in einem Produkt und speziell im Kontext des Cortex Framework implementiert werden. Google Cloud Nachdem Sie die Data Mesh-Konzepte kennengelernt haben, lesen Sie den Data Mesh-Nutzerleitfaden für die Cortex Framework Data Foundation.

Dataplex

In der folgenden Tabelle werden Data Mesh-Konzepte in Dataplex definiert:

Konzept Beschreibung Cortex Framework-Kontext
See Oberste Einheit zur Organisation von Daten in einem Data Mesh. Dataplex – Lakes verwalten Eine Datenquelle, z. B. SAP ECC, Salesforce, Google Ads.
Zone Einheit der zweiten Ebene zum Organisieren von Daten in einem Data Lake. Bestimmte Verarbeitungsebenen innerhalb einer Datenquelle, z. B. Rohdaten im Vergleich zu CDC.
Dataplex-Asset Verweis auf Daten, die in Cloud Storage oder BigQuery gespeichert und mit einer Zone verknüpft sind. Dies ist ein Verweis auf das Daten-Asset und nicht auf die Daten selbst. Verweis auf in Zonen registrierte BigQuery-Datasets.
Label Beliebige Schlüssel/Wert-Paare, die auf Datenspeicher oder Zonen angewendet werden können. Ganze Datenbanken oder Zonen (nicht Tabellen oder Spalten) mit Metadaten beschriften, die in Dataplex angezeigt oder für benutzerdefinierte Anwendungen verwendet werden können
Data Catalog Technische Geschäftsmetadaten, die zum Auffinden, Verstehen oder Verwalten von Daten-Assets in einem Warehouse verwendet werden können. Tabellen oder Spalten (nicht Datenbanken oder Zonen) mit umfassenden Metadaten-Tags annotieren, die in der Dataplex-Suche oder in benutzerdefinierten Anwendungen verwendet werden können.
Katalog-Tag-Vorlagen Eine Vorlage, in der die verfügbaren Felder und ihre Typen in einem Tag definiert werden. Dataplex – Tag-Vorlagen verwalten Sie können eine Reihe von Vorlagen für Zwecke wie das Tagging von Datenassets mit Geschäftsbereichen definieren.
Katalog-Tag Eine Reihe von Feldern und deren Werten, die Metadaten für eine Tabelle oder Spalte enthalten. Eine Instanz einer Tag-Vorlage. Eine Tabelle oder Spalte mit Metadatenwerten annotieren, die für das betreffende Asset relevant sind, z. B. für eine bestimmte Geschäftseinheit.
Glossar für den Katalog Ein Wörterbuch mit Begriffen, die definiert und mit BigQuery-Spalten verknüpft werden können. Dataplex – Glossare verwalten Definieren Sie Begriffe oder Akronyme, die in BigQuery-Assets verwendet werden. Diese Funktion ist derzeit nicht verfügbar, wird aber in Zukunft eingeführt.
Data Lineage Ein Diagramm, das BigQuery-Asset-Abhängigkeiten darstellt. Diese werden nicht von Cortex Data Mesh definiert, sind aber ein relevantes Dataplex-Tool, mit dem Nutzer BigQuery-Asset-Datenquellen finden können.
Abstammungsereignis Ein Zeitpunkt, zu dem ein Vorgang zum Verschieben von Daten zwischen BigQuery-Assets stattgefunden hat. Enthält eine Liste von Links. Werden automatisch für unterstützte BigQuery- und Composer-Vorgänge erstellt.
Lineage-Link Ein Kantenelement, das Daten darstellt, die im Rahmen eines Abfolgeereignisses von einem Quell- zu einem Ziel-Asset fließen. Sie kann analysiert werden, um Anwendungsfälle über die in der Console angezeigten Lineage-Visualisierungsdiagramme hinaus zu unterstützen.

BigQuery

In der folgenden Tabelle werden Data Mesh-Konzepte in BigQuery definiert:

Konzept Beschreibung Cortex Framework-Kontext
Richtlinientaxonomie Eine Hierarchie von Richtlinien-Tags. BigQuery – Richtlinien-Tags verwalten Ordnen Sie ähnliche Richtlinien-Tags, die für die Zugriffssteuerung verwendet werden können, einer Hierarchie mit übernommenen Berechtigungen zu.
Richtlinien-Tag Ein Tag, das auf bestimmte Spalten in einer BigQuery-Tabelle oder -Ansicht angewendet wird. Richtlinien-Tags können auf jeder Ebene der Hierarchie angewendet werden. Auf eine bestimmte Spalte kann nur ein Richtlinien-Tag angewendet werden. Spalten mit Tags versehen, die für die Zugriffssteuerung auf Spaltenebene verwendet werden Hauptkonten im Richtlinien-Tag definieren Leser mit „Detailliertem Lesezugriff“ oder „Ohne Maskierung“, die die Rohspaltendaten sehen können.
Datenrichtlinie Richtlinien, die auf ein Richtlinien-Tag angewendet werden und festlegen, wie und wer die maskierten Spaltendaten sehen kann. Die Hauptkonten in der Datenrichtlinie definieren die „maskierten Leser“, die die maskierten Spaltendaten sehen können. Nutzer ohne Leseberechtigungen für maskierte oder entfernbare Daten können die Spalte nicht abfragen.
Maskierungsregel Regeln, die auf eine Datenrichtlinie angewendet werden und definieren, wie die Daten maskiert werden, z. B. Hash-Technologie, Anzeige eines Standardwerts oder der letzten vier Zeichen. Wird situativ auf sensible Spalten angewendet.
Richtlinie für den Zeilenzugriff SQL-Anweisungen, die festlegen, welche Gruppen Zeilen in Tabellen basierend auf bestimmten Spaltenwerten abfragen können. Wird für die Zugriffssteuerung auf Zeilenebene verwendet, wenn die Steuerung auf Asset- und Spaltenebene nicht ausreicht.

Cortex Data Mesh-Konzept

In der folgenden Tabelle werden spezifische Data Mesh-Konzepte im Cortex-Framework definiert:

Konzept Beschreibung Cortex Framework-Kontext
Metadatenressource Metadatenentitäten, die in mehreren BigQuery-Assets wiederverwendet werden können. Beispiele sind Datenseen, Katalog-Tag-Vorlagen und Richtlinientaxonomien. Das gilt insbesondere für die Metadaten und nicht für die Daten in BigQuery selbst. Definiert wiederverwendbare Ressourcen, um eine einheitliche Verwaltung der Cortex Data Mesh zu ermöglichen.
BigQuery-Asset BigQuery-Tabelle oder ‑Datenansicht Vorhandene Cortex BigQuery-Objekte, die über das Data Mesh verwaltet werden.
BigQuery-Asset-Anmerkung Metadaten, die auf eine bestimmte BigQuery-Tabelle oder ‑Datenansicht angewendet werden. Dazu gehören Beschreibungen, Zugriffsrichtlinien und Zuordnungen zu Metadatenressourcen. Metadaten mit BigQuery-Assets verknüpfen, um die Suche und Zugriffssteuerung zu ermöglichen.
Ressourcenspezifikation (spec) Eine YAML-Datei, die eine Metadatenressource oder BigQuery-Asset-Anmerkung definiert. Die vollständige Ressourcenspezifikation codiert die zu implementierende Data Mesh-Konfiguration.