Dataplex-Glossar

Dataplex vereinheitlicht die End-to-End-Reise von Analysen mit einer zentralen Verwaltung von Daten und Diensten. In diesem Glossar sollen Begriffe definiert werden, die im Managementsystem verwendet werden.

Glossarliste

Vorgang

Von den Nutzern umsetzbare Probleme. Beispiel:

  • Die Weitergabe der Sicherheitsrichtlinie ist aufgrund einer nicht vorhandenen Sicherheitsgruppe des Nutzers fehlgeschlagen.
  • Dataplex kann nicht auf eine verwaltete Ressource zugreifen.
  • Der Erkennungsjob ist aus verschiedenen Gründen fehlgeschlagen (die vom Nutzer behoben werden können). Dies kann an Problemen mit Nutzerdaten liegen, z. B. ungültige Datenformate, inkompatibles Schema über Partitionen hinweg oder inkonsistente Partitionsbenennung.

Aktionen werden automatisch von Dataplex generiert. Einige Aktionen werden von Dataplex automatisch gelöscht, wenn das zugrunde liegende Problem vom Nutzer behoben wurde. Andere Aktionen müssen explizit vom Nutzer als geklärt gekennzeichnet werden.

Nachdem der Nutzer Erkennungsaktionen durchgeführt hat, sollte er beispielsweise die Dataplex API aufrufen, um die Aktionen als erledigt zu markieren, damit das Erkennungssystem die Pausierung aufheben und eine sofortige Erkennungsausführung planen kann.

Asset

Asset stellt eine einzelne verwaltete Ressource (Bucket/Dataset) in Dataplex dar. Es ist auch ein Platzhalter für verschiedene Konfigurationen für die verwalteten Ressourcen und Subsysteme (Erkennung, Richtlinienverwaltung usw.), die darauf reagieren.

BigQuery

BigQuery ist das vollständig verwaltete, kostengünstige Data Warehouse für Analysen im Petabyte-Bereich von Google Cloud, mit dem Sie große Datenmengen nahezu in Echtzeit analysieren können.

Mit BigQuery muss keine Infrastruktur eingerichtet oder verwaltet werden, sodass Sie sich auf das Gewinnen aussagekräftiger Informationen mit Standard-SQL konzentrieren und die flexiblen Preismodelle mit On-Demand- und Pauschalpreisoptionen nutzen können. Weitere Informationen

Daten

Nutzerdaten in einer verwalteten Ressource. Zum Beispiel Cloud Storage-Objekte in einem Bucket oder BigQuery-Tabellenzeilen in einem Dataset. Im Fall von Cloud Storage sind Objekte unveränderliche Einheiten von Nutzerdaten. Bei einem BigQuery-Dataset werden die Zeilen in den untergeordneten Tabellen als Nutzerdaten betrachtet.

Data Catalog

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung, mit dem Organisationen alle ihre Daten in Google Cloud schnell finden, verwalten und verstehen können. Weitere Informationen

Dataplex-Dienstkonto

Stellt einen Dienst-Agent dar, einen Dienstkontotyp, der verschiedene Aktionen im Namen von Dataplex ausführt. Beispielsweise verlassen sich das Erkennungssystem und das Richtlinienverwaltungssystem auf den Dienst-Agent.

Der Dienst-Agent benötigt verschiedene IAM-Berechtigungen für vom Nutzer verwaltete Ressourcen und Projekte, um seinen Job auszuführen. Einige werden bei der Aktivierung von Dataplex in einem Projekt automatisch gewährt. Andere (z. B. das Anhängen eines Buckets aus einem anderen Projekt) müssen vom Nutzer manuell gewährt werden.

Dataproc Metastore

Dataproc Metastore ist ein vollständig verwalteter, hochverfügbarer, automatisch skalierter OSS-nativer Metastore-Dienst mit automatischer Reparatur, der die technische Metadatenverwaltung erheblich vereinfacht. Der Dataproc Metastore-Dienst basiert auf dem Apache Hive-Metastore und dient als kritische Komponente für Data Lakes in Unternehmen. Weitere Informationen

Discovery

Subsystem, das für das Crawlen von Nutzerdaten und das Extrahieren von Metadaten zuständig ist.

Eintragsgruppe

Eine Eintragsgruppe enthält Einträge. Eine Eintragsgruppe ist ein Satz logisch zusammengehöriger Einträge sowie Identity and Access Management-Richtlinien, die festlegen, welche Nutzer innerhalb einer Eintragsgruppe Einträge erstellen, bearbeiten und ansehen dürfen.

Dateisatz

Ein Dateisatz ist ein Eintrag innerhalb einer vom Nutzer erstellten Eintragsgruppe. Ein Dateisatz wird durch ein oder mehrere Dateimuster definiert, die einen Satz aus einer oder mehreren Cloud Storage-Dateien angeben. Dateisatzeinträge können zum Organisieren und Erkennen von Cloud Storage-Dateien sowie zum Hinzufügen von Metadaten verwendet werden.

Lake

Ein Lake ist ein zentrales Repository zur Verwaltung von Unternehmensdaten in der gesamten Organisation, die auf viele Cloud-Projekte verteilt und in einer Vielzahl von Speicherdiensten wie Cloud Storage und BigQuery gespeichert sind. Die an einen Lake angehängten Ressourcen werden als verwaltete Ressourcen bezeichnet. Daten innerhalb dieser verwalteten Ressourcen können strukturiert oder unstrukturiert sein.

Ein Lake bietet Datenadministratoren Tools zum Organisieren, Sichern und Verwalten ihrer Daten in großem Maßstab und bietet Data Scientists und Data Engineers eine integrierte Umgebung, mit der sie Daten und zugehörige Metadaten einfach suchen, erkennen, analysieren und transformieren können.

Logs

Stackdriver-Logs von Dataplex, mit denen Nutzer Einblicke in die Funktionsweise ihres Lakes erhalten, Fehler beheben, Warnungen festlegen usw. können. Beispiele für Logs, die:

  • Aktionen einblenden, die Ihre Aufmerksamkeit erfordern
  • Änderungen an Oberflächenmetadaten
  • Zusammenfassung der Jobausführungen anzeigen
  • Aktionen für Erkennungsjobs (gelesene, geschriebene Dateien usw.)

Metadaten

Informationen, die vom Erkennungssystem aus den Nutzerdaten extrahiert wurden. Beispiele: Name des Cloud Storage-Bucket, Attribute des BigQuery-Datasets, Schema untergeordneter BigQuery-Tabellen usw.

Es gibt zwei Arten von Metadaten:

  • Technische Metadaten wie Schema
  • Operative Metadaten wie Datenstatistiken (Gesamtzahl der Objekte und Größe in Cloud Storage)

Messwerte

Messwerte stellen Stackdriver-Messwerte dar, die von Dataplex als öffentliche API bereitgestellt werden und von Nutzern dann verwendet werden können, um Stackdriver-Benachrichtigungen einzurichten oder mithilfe von Grafiken zu visualisieren. Weitere Informationen zu bestimmten Dataplex-Messwerten finden Sie in Cloud Monitoring von Dataplex.

Weitergabe von Einstellungsänderungen

Durch das Ändern bestimmter Ressourcenkonfigurationen wird ein asynchroner Hintergrundprozess ausgelöst, um den Status der verwalteten Ressourcen mit dem vom Nutzer angegebenen abzugleichen. Beispielsweise muss die für einen Lake angegebene Sicherheitskonfiguration an die IAM-Richtlinie von potenziell Tausenden von verwalteten Ressourcen (Buckets/Datasets) unter diesem Lake weitergegeben werden. Dies geschieht nicht sofort, wenn die API aufgerufen wird. Dieser Prozess wird als Verbreitung bezeichnet.

Der Status der Weitergabe wird in den entsprechenden Statusfeldern widergespiegelt und Fehler werden über Aktionen angezeigt.

Ressource

Dataplex-Ressource

Vom Dataplex-Dienst definierte Google Cloud-Ressourcen wie Lake, Datenzone und Asset.

Untergeordnete Ressource

Untergeordnetes Element einer verwalteten Ressource. Beispiel: Cloud Storage-Objekte oder BigQuery-Tabelle/-Routine/-Modelle. Die Verwaltung von untergeordneten Ressourcenrichtlinien erfolgt nicht direkt über Dataplex. Die geltende Richtlinie wird jedoch dadurch beeinflusst, was von der übergeordneten Ressource übernommen wird.

Verwaltete Ressource

Google Cloud-Ressourcen, die über Dataplex verwaltet und erkannt werden können. Derzeit sind Cloud Storage-Buckets und BigQuery-Datasets verfügbar. Eine verwaltete Ressource kann zu einem anderen Projekt als der Lake gehören, muss jedoch derselben Organisation angehören.

Spezifikation

Vom Nutzer angegebene Spezifikation. Beispiel:

  • Die Sicherheitsspezifikation gibt die Sicherheitskonfiguration für den Lake/die Zone/das Asset an.
  • Die Ressourcenspezifikation für ein Asset gibt einen Verweis auf die verwaltete Ressource (Bucket/Dataset) an.
  • Die Erkennungsspezifikation gibt die Erkennungskonfiguration für ein Asset an.

Status

Stellt den Status der vom Nutzer bereitgestellten Spezifikation dar. Beispiel:

  • Der Sicherheitsstatus gibt den Status der Weitergabe der Sicherheitsrichtlinie (z. B. einer Sicherheitsspezifikation) an die zugrunde liegenden Buckets/Datasets an.
  • Der Ressourcenstatus gibt den Status der verwalteten Ressource (ok / nicht gefunden/Berechtigung verweigert usw.) an, der in der Ressourcenspezifikation angegeben ist.
  • Der Erkennungsstatus stellt den Status des Erkennungsjobs dar, der von den Erkennungsspezifikationen bestimmt wird.

Tabelle

Logische Tabelle (Zeilen und Spalten) mit einem klar definierten Schema (Spaltennamen und -typen), das durch Daten (oder eine Teilmenge davon) in einer verwalteten Ressource gestützt wird. Eine Tabelle kann beispielsweise von einer Teilmenge von Cloud Storage-Objekten in einem Cloud Storage-Bucket oder einer BigQuery-Tabelle im BigQuery-Dataset abgesichert werden.

  • Tabellen als Konzept der ersten Klasse werden in Dataproc Metastore, Data Catalog und BigQuery (Metadatenregistrierung) angezeigt. Tabellen werden nicht nachgelagert angezeigt, wenn die Erkennung oder Veröffentlichung im nachgelagerten System nicht aktiviert ist. Zum Beispiel werden Tabellen, die aus Nutzerdaten in Cloud Storage erkannt wurden, nicht in BigQuery angezeigt, wenn die Veröffentlichung in BigQuery nicht aktiviert ist.
  • Vom Erkennungssystem entdeckt. Kann nicht vom Nutzer erstellt werden.
  • Tabellennamen werden so generiert, dass sie kurz und aussagekräftig sind, damit sie einfach abgefragt werden können. Der Name besteht aus drei Teilen: [Prefix_]table root path[_Sequence number].

Zone

Ein logischer Container mit einer oder mehreren Datenressourcen, die in einem Lake erstellt wurden. Eine Datenzone kann verwendet werden, um die Geschäftseinheiten innerhalb einer Organisation (z. B. Vertrieb und Betrieb) zu modellieren. Datenzonen modellieren auch die Datenreise oder die Bereitschaft für die Nutzung.

Rohdatenzone

Eine Datenzone, die Daten enthält, die weiter verarbeitet werden müssen, bevor sie als allgemein für Verbrauchs- und Analysearbeitslasten bereit betrachtet werden.

Ausgewählte Zone

Eine Datenzone mit Daten, die für umfassendere Nutzungs- und Analysearbeitslasten bereit sind. Ausgewählte strukturierte Daten, die in Cloud Storage gespeichert sind, müssen bestimmten Dateiformaten (Parquet, Avro und ORC) entsprechen und in einem Hive-kompatiblen Verzeichnislayout organisiert sein.

Nächste Schritte