Dataplex-Glossar

Dataplex vereint den End-to-End-Prozess für Analysen mit einer zentralen Verwaltung von Daten und Diensten. In diesem Glossar werden die im Verwaltungssystem verwendeten Begriffe definiert.

Glossarliste

Aktion

Umsetzbare Probleme für Nutzer Beispiel:

  • Die Weiterleitung der Sicherheitsrichtlinie ist fehlgeschlagen, da der Nutzer eine nicht vorhandene Sicherheitsgruppe angegeben hat.
  • Dataplex kann nicht auf eine verwaltete Ressource zugreifen.
  • Der Discovery-Job ist aus verschiedenen Gründen fehlgeschlagen, die vom Nutzer behoben werden können. Dies kann auf Probleme mit Nutzerdaten zurückzuführen sein, z. B. ungültige Datenformate, inkompatible Schemata zwischen Partitionen oder inkonsistente Partitionsnamen.

Aktionen werden automatisch von Dataplex generiert. Einige Aktionen werden von Dataplex automatisch gelöscht, wenn das zugrunde liegende Problem vom Nutzer behoben wurde. Andere Aktionen müssen vom Nutzer ausdrücklich als gelöst gekennzeichnet werden.

Wenn der Nutzer beispielsweise Maßnahmen zur Datenaufdeckung ergriffen hat, sollte er die Dataplex API aufrufen, um die Maßnahmen als behoben zu markieren, damit das Discovery-System die Pausierung aufheben und einen sofortigen Discovery-Lauf planen kann.

Asset

Ein Asset stellt eine einzelne verwaltete Ressource (Bucket/Dataset) in Dataplex dar. Es ist auch ein Platzhalter für verschiedene Konfigurationen für die verwalteten Ressourcen und Subsysteme (z. B. Erkennung, Richtlinienverwaltung), die darauf reagieren.

BigQuery

BigQuery ist das vollständig verwaltete, kostengünstige Data Warehouse für Analysen im Petabyte-Bereich von Google Cloud. Damit können Sie große Datenmengen nahezu in Echtzeit analysieren.

Mit BigQuery muss keine Infrastruktur eingerichtet oder verwaltet werden. So können Sie sich mithilfe von Standard-SQL auf aussagekräftige Informationen konzentrieren und außerdem flexible Preismodelle einschließlich On-Demand- und Pauschaloptionen nutzen. Weitere Informationen

Daten

Nutzerdaten in einer verwalteten Ressource Beispielsweise Cloud Storage-Objekte in einem Bucket oder BigQuery-Tabellenzeilen in einem Dataset. Bei Cloud Storage sind Objekte unveränderliche Einheiten von Nutzerdaten. Bei einem BigQuery-Dataset gelten die Zeilen in den untergeordneten Tabellen als Nutzerdaten.

Data Catalog

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung, mit dem Organisationen alle ihre Daten in Google Cloud schnell finden, verwalten und verstehen können. Weitere Informationen

Dataplex-Dienstkonto

Stellt einen Dienst-Agenten dar, eine Art Dienstkonto, das verschiedene Aktionen im Namen von Dataplex ausführt. So sind beispielsweise das Discovery-System und das Richtlinienverwaltungssystem auf den Dienst-Agenten angewiesen.

Der Dienst-Agent benötigt verschiedene IAM-Berechtigungen für von Nutzern verwaltete Ressourcen und Projekte, um seine Aufgabe ausführen zu können. Einige werden automatisch gewährt, wenn Dataplex für ein Projekt aktiviert wird. Andere Berechtigungen (z. B. das Anhängen eines Buckets aus einem anderen Projekt) müssen vom Nutzer manuell erteilt werden.

Dataproc Metastore

Dataproc Metastore ist ein vollständig verwalteter, hochverfügbarer, automatisch skalierter, OSS-nativer Metastore-Dienst mit automatischer Reparatur, der die technische Metadatenverwaltung erheblich vereinfacht. Der Dataproc Metastore-Dienst basiert auf Apache Hive-Metastore und dient als kritische Komponente für Data Lakes in Unternehmen. Weitere Informationen

Discovery

Untersystem, das für das Crawlen von Nutzerdaten und das Extrahieren von Metadaten verantwortlich ist.

Eintragsgruppe

Eine Eintragsgruppe enthält Einträge. Eine Eintragsgruppe ist ein Satz logisch zusammengehöriger Einträge sowie Identity and Access Management-Richtlinien, die festlegen, welche Nutzer innerhalb einer Eintragsgruppe Einträge erstellen, bearbeiten und ansehen dürfen.

Dateisatz

Ein Dateisatz ist ein Eintrag in einer vom Nutzer erstellten Eintragsgruppe. Ein Dateisatz wird durch ein oder mehrere Dateimuster definiert, die einen Satz von einer oder mehreren Cloud Storage-Dateien angeben. Dateisatzeinträge können verwendet werden, um Cloud Storage-Dateien zu organisieren und zu finden sowie ihnen Metadaten hinzuzufügen.

Lake

Ein Data Lake ist ein zentrales Repository zur Verwaltung von Unternehmensdaten in der gesamten Organisation, die über viele Cloud-Projekte verteilt und in einer Vielzahl von Speicherdiensten wie Cloud Storage und BigQuery gespeichert sind. Die mit einem See verknüpften Ressourcen werden als verwaltete Ressourcen bezeichnet. Die Daten in diesen verwalteten Ressourcen können strukturiert oder unstrukturiert sein.

Ein Data Lake bietet Datenadministratoren Tools, mit denen sie ihre Daten im großen Maßstab organisieren, schützen und verwalten können. Außerdem bietet er Data Scientists und Data Engineers eine integrierte Umgebung, mit der sie Daten und zugehörige Metadaten ganz einfach suchen, entdecken, analysieren und transformieren können.

Logs

Von Dataplex bereitgestellte Stackdriver-Protokolle, mit denen Nutzer Einblicke in die Funktionsweise ihres Data Lake gewinnen, Fehler beheben und Warnungen einrichten können. Beispiele:

  • Oberflächenaktionen, die Ihre Aufmerksamkeit erfordern
  • Änderungen an Oberflächenmetadaten
  • Zusammenfassung der Jobausführungen anzeigen
  • Jobaktionen zur Erkennung der Angriffsfläche (z. B. gelesene oder geschriebene Dateien)

Metadaten

Informationen, die vom Discovery-System aus den Nutzerdaten extrahiert wurden. Dazu gehören beispielsweise der Name des Cloud Storage-Bucket, BigQuery-Dataset-Eigenschaften und das Schema von untergeordneten BigQuery-Tabellen.

Es gibt zwei Arten von Metadaten:

  • Technische Metadaten wie das Schema
  • Betriebsmetadaten wie Datenstatistiken (Gesamtzahl der Objekte und Größe in Cloud Storage)

Messwerte

Messwerte sind Stackdriver-Messwerte, die von Dataplex als öffentliche API bereitgestellt werden. Nutzer können sie dann verwenden, um Stackdriver-Benachrichtigungen einzurichten oder in Diagrammen zu visualisieren. Weitere Informationen zu bestimmten Dataplex-Messwerten finden Sie unter Cloud Monitoring für Dataplex.

Weitergabe von Einstellungsänderungen

Wenn Sie bestimmte Ressourcenkonfigurationen ändern, wird ein asynchroner Hintergrundprozess gestartet, um den Status der verwalteten Ressourcen mit den vom Nutzer angegebenen Werten abzugleichen. Beispielsweise muss die für einen Data Lake angegebene Sicherheitskonfiguration auf die IAM-Richtlinien von potenziell Tausenden verwalteter Ressourcen (Buckets/Datasets) unter diesem Data Lake angewendet werden. Das geschieht nicht sofort, wenn die API aufgerufen wird. Dieser Vorgang wird als Weiterleitung bezeichnet.

Der Status der Übertragung wird in den entsprechenden Statusfeldern angezeigt. Fehler werden über Aktionen angezeigt.

Ressource

Dataplex-Ressource

Vom Dataplex-Dienst definierte Google Cloud-Ressourcen wie Lake, Datenzone und Asset.

Untergeordnete Ressource

Untergeordnete Ressource einer verwalteten Ressource. Beispiel: Cloud Storage-Objekte oder BigQuery-Tabellen/-Abläufe/-Modelle Die Verwaltung von Richtlinien für untergeordnete Ressourcen erfolgt nicht direkt über Dataplex. Die wirksame Richtlinie wird jedoch von den übergeordneten Elementen beeinflusst.

Verwaltete Ressource

Google Cloud-Ressourcen, die über Dataplex verwaltet und ermittelt werden können. Derzeit sind das Cloud Storage-Buckets und BigQuery-Datasets. Eine verwaltete Ressource kann zu einem anderen Projekt als dem See gehören, muss aber derselben Organisation angehören.

Spezifikation

Vom Nutzer angegebene Spezifikation. Beispiel:

  • Die Sicherheitsspezifikation gibt die Sicherheitskonfiguration für den Datensee, die Zone oder das Asset an.
  • Die Ressourcenspezifikation für ein Asset gibt einen Verweis auf die verwaltete Ressource (Bucket/Dataset) an.
  • In der Discovery-Spezifikation wird die Discovery-Konfiguration für ein Asset angegeben.

Status

Der Status der vom Nutzer bereitgestellten Spezifikation. Beispiele:

  • Der Sicherheitsstatus gibt den Status der Weiterleitung der Sicherheitsrichtlinie (z. B. einer Sicherheitsspezifikation) an die zugrunde liegenden Bucket/Datensätze an.
  • Der Ressourcenstatus gibt den Status der verwalteten Ressource an (z. B. „ok“, „nicht gefunden“ oder „Berechtigung abgelehnt“), der in der Ressourcenspezifikation angegeben ist.
  • Der Erkennungsstatus gibt den Status des Erkennungsjobs an, der von den Erkennungsspezifikationen abhängt.

Tabelle

Logische Tabelle (Zeilen und Spalten) mit einem klar definierten Schema (Spaltennamen und ‑typen), das von Daten (oder einer Teilmenge davon) in einer verwalteten Ressource unterstützt wird. Eine Tabelle kann beispielsweise von einer Teilmenge von Cloud Storage-Objekten in einem Cloud Storage-Bucket oder einer BigQuery-Tabelle im BigQuery-Dataset unterstützt werden.

  • Tabellen als Hauptkonzept werden in Dataproc Metastore, Data Catalog und BigQuery (Metadatenregistrierung) angezeigt. Tabellen werden nicht weitergeleitet, wenn die Entdeckung oder Veröffentlichung im Downstream-System nicht aktiviert ist. Tabellen, die aus Nutzerdaten in Cloud Storage ermittelt wurden, werden beispielsweise nicht in BigQuery angezeigt, wenn die Veröffentlichung in BigQuery nicht aktiviert ist.
  • Vom Discovery-System erkannt. Kann nicht vom Nutzer erstellt werden.
  • Tabellennamen werden so generiert, dass sie kurz und aussagekräftig sind, damit sie leicht abgefragt werden können. Die Namen bestehen aus drei Teilen, [Prefix_]table root path[_Sequence number].

Zone

Ein logischer Container mit einer oder mehreren Datenressourcen, die in einem Lake erstellt wurden. Mit einer Datenzone können die Geschäftsbereiche innerhalb einer Organisation modelliert werden (z. B. Vertrieb und Betrieb). Datenzonen modellieren auch den Datenfluss oder die Verfügbarkeit für die Nutzung.

Rohdatenzone

Eine Datenzone, die Daten enthält, die weiterverarbeitet werden müssen, bevor sie für die Verwendung und Analyse geeignet sind.

Ausgewählte Zone

Eine Datenzone, die Daten enthält, die für eine breitere Nutzung und Analysearbeitslasten geeignet sind. In Cloud Storage gespeicherte ausgewählte strukturierte Daten müssen bestimmten Dateiformaten (Parquet, Avro und ORC) entsprechen und in einem Hive-kompatiblen Verzeichnislayout organisiert sein.

Nächste Schritte