Dataplex-Glossar

Dataplex vereinheitlicht den End-to-End-Prozess für Analysen mit einer zentralen Verwaltung von Daten und Diensten. In diesem Glossar sollen Begriffe definiert werden, die im Verwaltungssystem verwendet werden.

Glossarliste

Aktion

Probleme, die von Nutzern behoben werden können Beispiel:

  • Die Weitergabe der Sicherheitsrichtlinie ist aufgrund einer vom Nutzer nicht vorhandenen Sicherheitsgruppe fehlgeschlagen.
  • Auf eine verwaltete Ressource kann von Dataplex nicht zugegriffen werden.
  • Der Erkennungsjob ist aus verschiedenen Gründen fehlgeschlagen, die vom Nutzer behoben werden können. Dies kann an Problemen mit Nutzerdaten liegen, z. B. ungültige Datenformate, inkompatibles Schema für mehrere Partitionen oder inkonsistente Partitionsbenennung.

Aktionen werden automatisch von Dataplex generiert. Einige Aktionen werden von Dataplex automatisch gelöscht, wenn festgestellt wird, dass das zugrunde liegende Problem vom Nutzer behoben wurde. Andere Aktionen müssen vom Nutzer explizit als erledigt markiert werden.

Nachdem der Nutzer beispielsweise Erkennungsaktionen ausgeführt hat, sollte er die Dataplex API aufrufen, um die Aktionen als erledigt zu markieren. So kann das Erkennungssystem die Pausierung aufheben und eine sofortige Erkennungsausführung planen.

Asset

Das Asset stellt eine einzelne verwaltete Ressource (Bucket/Dataset) in Dataplex dar. Er ist auch ein Platzhalter für verschiedene Konfigurationen für die verwalteten Ressourcen und Subsysteme (Erkennung, Richtlinienverwaltung usw.), die darauf reagieren.

BigQuery

BigQuery ist das vollständig verwaltete, kostengünstige Data Warehouse für Analysen im Petabyte-Bereich von Google Cloud, mit dem Sie große Datenmengen nahezu in Echtzeit analysieren können.

Mit BigQuery muss keine Infrastruktur eingerichtet oder verwaltet werden. Sie können sich also darauf konzentrieren, mithilfe von Standard-SQL aussagekräftige Informationen zu gewinnen und flexible Preismodelle sowohl bei On-Demand- als auch Pauschalpreisen zu nutzen. Weitere Informationen

Daten

Nutzerdaten in einer verwalteten Ressource. Zum Beispiel Cloud Storage-Objekte in einem Bucket oder BigQuery-Tabellenzeilen in einem Dataset. Bei Cloud Storage sind Objekte unveränderliche Einheiten von Nutzerdaten. Bei einem BigQuery-Dataset werden die Zeilen in den untergeordneten Tabellen als Nutzerdaten betrachtet.

Data Catalog

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung, mit dem Organisationen alle ihre Daten in Google Cloud schnell finden, verwalten und verstehen können. Weitere Informationen

Dataplex-Dienstkonto

Stellt ein intern verwaltetes Google Cloud-Dienstkonto dar, das verschiedene Aktionen im Namen von Dataplex ausführt. Dienstkonto-Anmeldedaten werden beispielsweise vom Discovery-System, dem Richtlinienverwaltungssystem usw. verwendet.

Das Dienstkonto benötigt verschiedene IAM-Berechtigungen für von Nutzern verwaltete Ressourcen und Projekte, um seinen Job auszuführen. Einige werden im Rahmen der Aktivierung von Dataplex für ein Projekt automatisch gewährt. Andere Berechtigungen (z. B. das Anhängen eines Buckets aus einem anderen Projekt) müssen vom Nutzer manuell gewährt werden.

Dataproc Metastore

Dataproc Metastore ist ein vollständig verwalteter, hochverfügbarer OSS-nativer Metastore-Dienst mit automatischer Skalierung und automatischer Skalierung, der die Verwaltung technischer Metadaten erheblich vereinfacht. Der Dataproc Metastore-Dienst basiert auf dem Apache Hive-Metastore und dient als wichtige Komponente für Data Lakes in Unternehmen. Weitere Informationen

Discovery

Subsystem, das für das Crawlen von Nutzerdaten und das Extrahieren von Metadaten verantwortlich ist.

Eintragsgruppe

Eine Eintragsgruppe enthält Einträge. Eine Eintragsgruppe ist ein Satz logisch zusammengehöriger Einträge sowie Identity and Access Management-Richtlinien, die festlegen, welche Nutzer innerhalb einer Eintragsgruppe Einträge erstellen, bearbeiten und ansehen dürfen.

Dateisatz

Ein Dateisatz ist ein Eintrag in einer vom Nutzer erstellten Eintragsgruppe. Ein Dateisatz wird durch ein oder mehrere Dateimuster definiert, die einen Satz aus einer oder mehreren Cloud Storage-Dateien angeben. Mit Dateisatzeinträgen können Sie Cloud Storage-Dateien organisieren und erkennen sowie ihnen Metadaten hinzufügen.

Lake

Ein Lake ist ein zentrales Repository zum Verwalten von Unternehmensdaten im gesamten Unternehmen, das auf viele Cloud-Projekte verteilt und in einer Vielzahl von Speicherdiensten wie Cloud Storage und BigQuery gespeichert wird. Die mit einem Lake verbundenen Ressourcen werden als verwaltete Ressourcen bezeichnet. Daten in diesen verwalteten Ressourcen können strukturiert oder unstrukturiert sein.

Ein Lake bietet Datenadministratoren Tools zum Organisieren, Sichern und Verwalten ihrer Daten in großem Maßstab und bietet Data Scientists und Data Engineers eine integrierte Umgebung zum einfachen Suchen, Auffinden, Analysieren und Transformieren von Daten und zugehörigen Metadaten.

Logs

Von Dataplex bereitgestellte Stackdriver-Logs, mit denen Nutzer Informationen zur Funktionsweise ihres Lakes erhalten, Fehler beheben, Benachrichtigungen einrichten usw. können. Beispiele: Logs, die:

  • Aktionen hervorheben, die Maßnahmen erfordern
  • Metadatenänderungen sichtbar machen
  • Eine Zusammenfassung der Jobausführungen anzeigen
  • Surface Discovery-Jobaktionen (gelesene, geschriebene Dateien usw.)

Metadaten

Informationen, die das Discovery-System aus den Nutzerdaten extrahiert. Zum Beispiel Cloud Storage-Bucket-Name, BigQuery-Dataset-Attribute, Schema untergeordneter BigQuery-Tabellen usw.

Es gibt zwei Arten von Metadaten:

  • Technische Metadaten wie Schema
  • Operative Metadaten wie Datenstatistiken (Gesamtzahl und Größe von Objekten in Cloud Storage)

Messwerte

Messwerte stellen Stackdriver-Messwerte dar, die von Dataplex als öffentliche API zur Verfügung gestellt werden und von Nutzern dann zum Einrichten von Stackdriver-Benachrichtigungen oder zur Visualisierung durch Grafiken verwendet werden können. Weitere Informationen zu bestimmten Dataplex-Messwerten finden Sie unter Cloud Monitoring von Dataplex.

Weitergabe von Einstellungsänderungen

Durch das Ändern bestimmter Ressourcenkonfigurationen wird ein asynchroner Hintergrundprozess initiiert, um den Status der verwalteten Ressourcen mit den vom Nutzer angegebenen Daten abzugleichen. Beispielsweise muss die für einen Lake angegebene Sicherheitskonfiguration an die IAM-Richtlinie von potenziell Tausenden von verwalteten Ressourcen (Buckets/Datasets) in diesem Lake weitergegeben werden. Sie geschieht nicht sofort, wenn die API aufgerufen wird. Dieser Vorgang wird als Verbreitung bezeichnet.

Der Status der Weitergabe wird in den relevanten Statusfeldern angegeben und Fehler werden über Aktionen angezeigt.

Ressource

Dataplex-Ressource

Vom Dataplex-Dienst definierte Google Cloud-Ressourcen, z. B. Lake, Datenzone und Asset.

Untergeordnete Ressource

Untergeordnetes Element einer verwalteten Ressource. Beispiel: Cloud Storage-Objekte oder BigQuery-Tabellen/-Abläufe/-Modelle. Die Verwaltung der Richtlinien für untergeordnete Ressourcen erfolgt nicht direkt über Dataplex. Die geltende Richtlinie wird jedoch durch die Elemente beeinflusst, die vom übergeordneten Element übernommen werden.

Verwaltete Ressource

Google Cloud-Ressourcen, die über Dataplex verwaltet und ermittelt werden können. Derzeit: Cloud Storage-Buckets und BigQuery-Datasets. Eine verwaltete Ressource kann zwar zu einem anderen Projekt als der Lake gehören, muss aber derselben Organisation angehören.

Spezifikation

Vom Nutzer bereitgestellte Spezifikation Beispiel:

  • Die Sicherheitsspezifikation gibt die Sicherheitskonfiguration für Lake/Zone/Asset an.
  • Die Ressourcenspezifikation für ein Asset gibt einen Verweis auf die verwaltete Ressource (Bucket/Dataset) an.
  • Die Discovery-Spezifikation gibt die Erkennungskonfiguration für ein Asset an.

Status

Stellt den Status der vom Nutzer bereitgestellten Spezifikation dar. Beispiel:

  • Der Sicherheitsstatus stellt den Status der Weitergabe der Sicherheitsrichtlinie (z. B. einer Sicherheitsspezifikation) an die zugrunde liegenden Buckets/Datasets dar.
  • Der Ressourcenstatus stellt den Status der verwalteten Ressource dar (OK / Nicht gefunden/Berechtigung verweigert usw.), der in der Ressourcenspezifikation angegeben ist.
  • Der Erkennungsstatus stellt den Status des Erkennungsjobs dar, der durch Erkennungsspezifikationen gesteuert wird.

Tabelle

Logische Tabelle (Zeilen und Spalten) mit einem klar definierten Schema (Spaltennamen und -typen), die durch Daten (oder eine Teilmenge davon) in einer verwalteten Ressource gestützt wird. Beispielsweise kann eine Tabelle durch eine Teilmenge von Cloud Storage-Objekten in einem Cloud Storage-Bucket oder eine BigQuery-Tabelle im BigQuery-Dataset gesichert werden.

  • Tabellen als erstes Klassenkonzept werden in Dataproc Metastore, Data Catalog und BigQuery (Metadatenregistrierung) präsentiert. Tabellen werden nicht nachgelagert, wenn die Erkennung oder Veröffentlichung im nachgelagerten System nicht aktiviert ist. Beispielsweise werden Tabellen, die anhand von Nutzerdaten in Cloud Storage erkannt wurden, nicht in BigQuery angezeigt, wenn die Veröffentlichung in BigQuery nicht aktiviert ist.
  • Vom Such- und Empfehlungssystem erkannt. Kann nicht vom Nutzer erstellt werden.
  • Tabellennamen werden so generiert, dass sie kurz und aussagekräftig sind, sodass sie einfach abgefragt werden können. Die Namen bestehen aus drei Teilen: [Prefix_]table root path[_Sequence number].

Zone

Ein logischer Container mit einer oder mehreren Datenressourcen, die in einem Lake erstellt wurden. Eine Datenzone kann verwendet werden, um die Geschäftseinheiten innerhalb einer Organisation zu modellieren (z. B. Vertrieb oder Betrieb). Datenzonen modellieren auch die Datenreise oder die Bereitschaft für die Nutzung.

Rohdatenzone

Eine Datenzone, die Daten enthält, die weiter verarbeitet werden müssen, bevor sie als allgemein einsatzbereit und für Analysearbeitslasten angesehen werden.

Ausgewählte Zone

Eine Datenzone, die Daten enthält, die für eine größere Verbrauchs- und Analysearbeitslasten bereit sind. Ausgewählte strukturierte Daten, die in Cloud Storage gespeichert sind, müssen bestimmten Dateiformaten (Parquet, Avro und ORC) entsprechen und in einem Hive-kompatiblen Verzeichnislayout organisiert sein.

Nächste Schritte