Informationen zu Lakes und Zonen

Unternehmen verfügen über Daten, die oft auf Data Lakes, Data Warehouses und Data Marts verteilt sind. Dataplex Universal Catalog ist eine Datenstruktur, die verteilte Daten zusammenführt und die Data Governance durch die Anwendung logischer Konstrukte auf verschiedene Daten-Assets vereinfacht.

Dataplex Universal Catalog abstrahiert die zugrunde liegenden Datenspeichersysteme mithilfe der folgenden Konstrukte: Lakes, Zonen, Assets und Einträge.

Lakes

Ein Lake ist ein logisches Konstrukt, das eine Datendomain oder Geschäftseinheit repräsentiert. Wenn Sie Daten beispielsweise nach der Nutzung durch Gruppen organisieren möchten, können Sie für jede Abteilung (z. B. Einzelhandel, Vertrieb, Finanzen) einen Data Lake einrichten.

Zonen

Eine Zone ist eine Subdomain innerhalb eines Lakes, die sich zum Kategorisieren von Daten nach folgenden Kriterien eignet:

  • Phase: z. B. Landing, Rohdaten, kuratierte Datenanalyse und kuratierte Data Science
  • Nutzung: z. B. Datenvertrag
  • Einschränkungen, z. B. Sicherheitskontrollen und Nutzerzugriffsebenen

Es gibt zwei Arten von Zonen:

  • Rohdatenzone: enthält Daten im Rohformat, die keiner strengen Typ-Prüfung unterliegen.

  • Kuratierte Zone: Enthält Daten, die bereinigt und formatiert wurden und für Analysen bereitstehen. Die Daten sind spaltenweise organisiert, mit Hive partitioniert und in Parquet-, Avro- oder ORC-Dateien oder BigQuery-Tabellen gespeichert. Die Daten werden einer Typüberprüfung unterzogen, um beispielsweise die Verwendung von CSV-Dateien zu verhindern, da sie für den SQL-Zugriff nicht so gut geeignet sind.

Assets

Ein Asset entspricht Daten, die entweder in Cloud Storage oder BigQuery gespeichert sind. Sie können Daten, die in separaten Google Cloud Projekten als Assets gespeichert sind, einer einzelnen Zone zuordnen.

Einträge

Eine Entität stellt Metadaten für strukturierte und semistrukturierte Daten (z. B. Tabelle) und unstrukturierte Daten (z. B. Fileset) dar.

Nächste Schritte