Dataplex-Glossar

Dataplex vereinheitlicht die End-to-End-Reise von Analysen mit einem zentralisierte Verwaltung von Daten und Diensten. In diesem Glossar werden Begriffe die im Managementsystem verwendet werden.

Glossarliste

Aktion

Umsetzbare Probleme für Nutzer Beispiel:

  • Die Weiterleitung der Sicherheitsrichtlinie ist aufgrund einer nicht vorhandenen Sicherheitsgruppe fehlgeschlagen, die vom Nutzer angegeben wurde.
  • Dataplex kann nicht auf eine verwaltete Ressource zugreifen.
  • Der Discovery-Job ist aus verschiedenen Gründen fehlgeschlagen, die vom Nutzer behoben werden können. Das kann an Problemen mit Nutzerdaten liegen, z. B. an ungültigen Datenformaten, inkompatiblen Schemas zwischen Partitionen oder inkonsistenten Partitionsnamen.

Aktionen werden automatisch von Dataplex generiert. Einige Aktionen sind automatisch von Dataplex gelöscht, wenn das zugrunde liegende Problem als vom Nutzer gelöst wurden. Andere Aktionen müssen vom Nutzer ausdrücklich als gelöst gekennzeichnet werden.

z. B. nachdem Erkennungsaktionen ausgeführt wurden. Nutzer muss die Dataplex API aufrufen, um die behoben werden, damit das Erkennungssystem die Pausierung aufheben und eine zur sofortigen Erkennung.

Asset

Ein Asset stellt eine einzelne verwaltete Ressource (Bucket/Dataset) in Dataplex dar. Es ist auch ein Platzhalter für verschiedene Konfigurationen von den verwalteten Ressourcen und Subsystemen (Erkennung, Richtlinienverwaltung usw.) die darauf reagieren.

BigQuery

BigQuery ist die vollständig verwaltete und vollständig verwaltete Kostengünstiges Data Warehouse für Analysen, mit dem Sie umfangreiche Analysen große Datenmengen nahezu in Echtzeit.

Mit BigQuery muss keine Infrastruktur eingerichtet oder verwaltet werden. So können Sie sich mithilfe von Standard-SQL auf aussagekräftige Informationen konzentrieren und außerdem flexible Preismodelle einschließlich On-Demand- und Pauschaloptionen nutzen. Weitere Informationen

Daten

Nutzerdaten in einer verwalteten Ressource. Beispielsweise Cloud Storage-Objekte in einem Bucket oder BigQuery-Tabellenzeilen in einem Dataset. Im Fall von Cloud Storage -Objekte sind unveränderliche Einheiten von Nutzerdaten. Im Fall einer BigQuery- Dataset enthält, werden die Zeilen in den untergeordneten Tabellen als Nutzerdaten betrachtet.

Data Catalog

Data Catalog ist eine vollständig verwaltete, skalierbare Metadatenverwaltung. Dienst, mit dem Organisationen schnell Daten finden, verwalten und verstehen können all ihre Daten in Google Cloud. Weitere Informationen

Dataplex-Dienstkonto

Steht für einen Dienst-Agent, einen Dienstkontotyp, der verschiedene Aktionen im Auftrag von Dataplex. Sowohl das Discovery-System als auch das Richtlinienverwaltungssystem sind beispielsweise auf den Dienst-Agenten angewiesen.

Der Dienst-Agent benötigt verschiedene IAM-Berechtigungen für von Nutzern verwaltete Ressourcen und Projekte, um seine Aufgabe ausführen zu können. Einige werden automatisch gewährt beim Aktivieren von Dataplex in einem Projekt. Andere (z. B. Anhängen eines Buckets aus einem anderen Projekt) müssen manuell vom Nutzer.

Dataproc Metastore

Dataproc Metastore ist eine vollständig verwaltete, hochverfügbare, automatisch skalierte automatische Reparatur, OSS-nativer Metaspeicherdienst, der die technische Metadatenmanagement. Der Dataproc Metastore-Dienst basiert auf Der Apache Hive-Metastore ist eine wichtige Komponente für Unternehmen. Data Lakes. Weitere Informationen

Discovery

Subsystem, das für das Crawlen von Nutzerdaten und das Extrahieren von Metadaten verantwortlich ist.

Eintragsgruppe

Eine Eintragsgruppe enthält Einträge. Eine Eintragsgruppe ist ein Satz logisch zusammengehöriger Einträge sowie Identity and Access Management-Richtlinien, die festlegen, welche Nutzer innerhalb einer Eintragsgruppe Einträge erstellen, bearbeiten und ansehen dürfen.

Dateisatz

Ein Dateisatz ist ein Eintrag in einer vom Nutzer erstellten Eintragsgruppe. Ein Dateisatz wird durch ein oder mehrere Dateimuster definiert, die einen Satz von einer oder mehreren Cloud Storage-Dateien angeben. Dateisatzeinträge können zum Organisieren und Erkennen von Cloud Storage-Dateien, und Metadaten hinzufügen.

Lake

Ein Lake ist ein zentrales Repository für die Verwaltung von Unternehmensdaten im gesamten die auf viele Cloud-Projekte verteilt und in einer Vielzahl von wie Cloud Storage und BigQuery. Die an einen Lake angehängte Ressourcen werden als verwaltete Ressourcen bezeichnet. Daten innerhalb dieser Verwaltete Ressourcen können strukturiert oder unstrukturiert sein.

Ein Data Lake bietet Datenadministratoren Tools, mit denen sie ihre Daten im großen Maßstab organisieren, schützen und verwalten können. Außerdem bietet er Data Scientists und Data Engineers eine integrierte Umgebung, mit der sie Daten und zugehörige Metadaten ganz einfach suchen, entdecken, analysieren und transformieren können.

Logs

Von Dataplex bereitgestellte Stackdriver-Logs, mit denen Nutzer Informationen zur Funktionsweise des Lakes erhalten, Fehler beheben, Benachrichtigungen einrichten usw. Beispiele:

  • Aktionen einblenden, die Ihre Aufmerksamkeit erfordern
  • Änderungen an Oberflächenmetadaten
  • Zusammenfassung der Jobausführungen anzeigen
  • Aktionen von Discovery-Jobs (z. B. gelesene oder geschriebene Dateien)

Metadaten

Informationen, die vom Erkennungssystem aus den Nutzerdaten extrahiert wurden. Beispiel: Cloud Storage-Bucket-Name, BigQuery-Dataset-Attribute, Schema untergeordneter BigQuery-Tabellen usw.

Es gibt zwei Arten von Metadaten:

  • Technische Metadaten wie Schema
  • Betriebsmetadaten wie Datenstatistiken (Gesamtzahl der Objekte und Größe in Cloud Storage)

Messwerte

Messwerte stellen Stackdriver-Messwerte dar, die von Dataplex als öffentliche API bereitgestellt werden. mit denen Nutzer Stackdriver-Benachrichtigungen einrichten oder Grafiken. Siehe Dataplex Cloud Monitoring finden Sie weitere Informationen zu bestimmten Dataplex-Messwerten.

Weitergabe von Einstellungsänderungen

Wenn Sie bestimmte Ressourcenkonfigurationen ändern, wird ein asynchroner Hintergrundprozess gestartet, um den Status der verwalteten Ressourcen mit den vom Nutzer angegebenen Werten abzugleichen. Beispielsweise muss die für einen Lake angegebene Sicherheitskonfiguration an die IAM-Richtlinie von potenziell Tausenden verwalteten Ressourcen übertragen (Buckets/Datasets) unter diesem Lake. Das geschieht nicht sofort, wenn die API aufgerufen wird. Dieser Prozess wird als Verbreitung bezeichnet.

Der Status der Weitergabe wird vom entsprechenden Statusfelder und Fehler werden über Aktionen angezeigt.

Ressource

Dataplex-Ressource

Vom Dataplex-Dienst definierte Google Cloud-Ressourcen, z. B. Lake, „Data Zone“ und „Asset“.

Untergeordnete Ressource

Untergeordnete Ressource einer verwalteten Ressource. Beispiel: Cloud Storage-Objekte oder BigQuery Tabelle/Routine/Modelle. Die Verwaltung der untergeordneten Ressourcenrichtlinien erfolgt nicht direkt über Dataplex, aber die geltende Richtlinie wird der von der übergeordneten übergeordneten Property übernommen wird.

Verwaltete Ressource

Google Cloud-Ressourcen, die über Dataplex verwaltet und erkannt werden können. Derzeit sind Cloud Storage-Buckets und BigQuery-Datasets verfügbar. Eine verwaltete Ressource kann zu einem anderen Projekt als dem Datensee gehören, muss aber derselben Organisation angehören.

Spezifikation

Vom Nutzer angegebene Spezifikation. Beispiel:

  • Die Sicherheitsspezifikation gibt die Sicherheitskonfiguration für den Lake/die Zone/das Asset an.
  • Die Ressourcenspezifikation für ein Asset gibt einen Verweis auf die verwaltete Ressource (Bucket/Dataset) an.
  • Die Erkennungsspezifikation gibt die Erkennungskonfiguration für ein Asset an.

Status

Der Status der vom Nutzer bereitgestellten Spezifikation. Beispiele:

  • Der Sicherheitsstatus gibt den Status der Weitergabe der Sicherheitsrichtlinie an (z. B. eine Sicherheitsspezifikation) an die zugrunde liegenden Buckets/Datasets.
  • Der Ressourcenstatus gibt den Status der verwalteten Ressource an (ok / nicht gefunden). / Berechtigung verweigert usw.).
  • Der Erkennungsstatus gibt den Status des Erkennungsjobs an, der ausgeführt wird. durch Erkennungsspezifikationen.

Tabelle

Logische Tabelle (Zeilen und Spalten) mit einem klar definierten Schema (Spaltennamen und ‑typen), das von Daten (oder einer Teilmenge davon) in einer verwalteten Ressource unterstützt wird. Eine Tabelle kann beispielsweise von einer Teilmenge von Cloud Storage-Objekten in einem Cloud Storage-Bucket oder einer BigQuery-Tabelle im BigQuery-Dataset unterstützt werden.

  • Tabellen als Hauptkonzept werden in Dataproc Metastore, Data Catalog und BigQuery (Metadatenregistrierung) angezeigt. Tabellen werden nachgelagert nicht angezeigt, wenn Erkennung oder Veröffentlichung in der nachgelagertes System ist nicht aktiviert. Zum Beispiel vom Nutzer erkannte Tabellen werden Daten in Cloud Storage in BigQuery nicht angezeigt, Die Veröffentlichung in BigQuery ist nicht aktiviert.
  • Vom Discovery-System erkannt. Kann nicht vom Nutzer erstellt werden.
  • Tabellennamen werden so generiert, dass sie kurz und aussagekräftig sind, damit sie leicht abgefragt werden können. Die Namen bestehen aus drei Teilen, [Prefix_]table root path[_Sequence number].

Zone

Ein logischer Container mit einer oder mehreren Datenressourcen, die in einem Lake erstellt wurden. Mit einer Datenzone können die Geschäftsbereiche innerhalb einer Organisation modelliert werden (z. B. Vertrieb und Betrieb). Datenzonen modellieren auch die Datenreise oder die Bereitschaft für die Nutzung.

Rohdatenzone

Eine Datenzone, die Daten enthält, die weiterverarbeitet werden müssen, bevor sie für die Verwendung und Analyse geeignet sind.

Ausgewählte Zone

Datenzone, die Daten enthält, die als für breiter gefasste Zwecke bereitstehen Nutzungs- und Analysearbeitslasten. Ausgewählte strukturierte Daten gespeichert in Cloud Storage muss bestimmte Dateiformate (Parquet, Avro und ORC) und sind in einem Hive-kompatiblen Verzeichnislayout organisiert.

Nächste Schritte