Dataplex Catalog – Übersicht

In diesem Dokument wird Dataplex Catalog beschrieben, der eine Plattform zum Speichern, Verwalten und Aufrufen Ihrer Metadaten bietet.

Dataplex Catalog bietet ein einheitliches Inventar von Google Cloud-Ressourcen wie BigQuery und anderen Ressourcen wie lokalen Ressourcen. Metadaten für Google Cloud-Ressourcen werden automatisch abgerufen. Metadaten für Ressourcen von Drittanbietern werden in Dataplex Catalog übertragen.

Mit Dataplex Catalog können Sie Ihr Inventar mit zusätzlichen geschäftlichen und technischen Metadaten anreichern, um den Kontext und das Wissen zu Ihren Ressourcen zu erfassen. Mit Dataplex Catalog können Sie Ihre Daten in der gesamten Organisation suchen und erkennen sowie Data Governance über Ihre Daten-Assets ermöglichen.

Anwendungsfälle

Mit Dataplex Catalog können Sie Folgendes tun:

  • Daten erkennen und verstehen Dataplex Catalog bietet Sichtbarkeit Ihrer Datenressourcen in der gesamten Organisation. Sie können damit relevante Ressourcen für den Datenverbrauch finden. Es bietet Kontext für Datenressourcen, was Ihnen hilft, die Eignung von Datenressourcen für die Anforderungen Ihres Datennutzers zu verstehen.

  • Data Governance und Datenverwaltung ermöglichen: Dataplex Catalog stellt Metadaten bereit, die Ihre Data Governance- und Datenverwaltungsfunktionen unterstützen und unterstützen können.

  • Pflegen Sie ein erweiterbares und umfassendes Repository für Ihre Metadaten. Dataplex Catalog speichert und bietet Zugriff auf Metadaten, die automatisch aus Ihren Google Cloud-Ressourcen abgerufen werden. Sie können Ihre eigenen Metadaten aus Nicht-Google Cloud-Systemen einbinden. Sie können alle Metadaten um zusätzliche geschäftliche und technische Metadatenanmerkungen ergänzen.

Funktionsweise von Dataplex Catalog

Dataplex Catalog basiert auf den folgenden Konzepten:

  • Eintrag: Ein Eintrag steht für ein Daten-Asset. Die meisten Metadaten werden durch Aspekte innerhalb eines Eintrags beschrieben. Dies ähnelt Einträgen in Data Catalog. Weitere Informationen finden Sie unter Einträge.

  • Aspekt: Ein Aspekt ist eine Reihe verwandter Metadatenfelder innerhalb eines Eintrags. Ein Aspekt kann entweder als Baustein eines Eintrags oder als zusätzliche Metadaten interpretiert werden. Dies ähnelt Tags in Data Catalog, allerdings werden Aspekte in Einträgen und nicht als eigenständige Ressourcen gespeichert. Weitere Informationen finden Sie unter Aspekte.

  • Aspekttyp: Ein Aspekttyp ist eine wiederverwendbare Vorlage für Aspekte. Jeder Aspekt ist eine Instanz eines Aspekttyps. Dies ähnelt Tag-Vorlagen in Data Catalog. Weitere Informationen finden Sie unter Aspekttypen.

  • Eintragsgruppe: Eine Eintragsgruppe ist ein Container für Einträge und dient als Verwaltungseinheit für diese Einträge. Verwenden Sie beispielsweise eine Eintragsgruppe, um die IAM-Zugriffssteuerung, die Projektzuordnung oder den Speicherort für die Einträge in der Eintragsgruppe zu konfigurieren. Dies ähnelt den Eintragsgruppen in Data Catalog. Weitere Informationen finden Sie unter Eintragsgruppen.

  • Eintragstyp: Ein Eintragstyp ist eine Vorlage zum Erstellen von Einträgen. Darin werden die wesentlichen Metadatenelemente festgelegt. Sie sind als Liste der erforderlichen Aspekte für Einträge dieses Typs aufgeführt. Weitere Informationen finden Sie unter Eintragstypen.

    Einträge und Eintragsgruppen
    Abbildung 1. Einträge und Eintragsgruppen
    Aspekttypen und Eintragstypen
    Abbildung 2. Aspekttypen und Eintragstypen

Im Folgenden finden Sie einige Anwendungsfälle für Dataplex Catalog:

  • Als Fachkraft für Datenanalyse oder Business Analyst können Sie Einträge in der gesamten Organisation suchen und Metadaten untersuchen, die mit den Einträgen verknüpft sind. Weitere Informationen finden Sie unter Nach Daten-Assets suchen.
  • Als Dateninhaber oder Data Gouverneur können Sie zusätzliche technische und geschäftliche Metadaten erfassen, indem Sie Ihre Einträge mit Aspekten versehen. Weitere Informationen finden Sie unter Aspekte verwalten und Metadaten anreichern.
  • Als Dateninhaber oder Daten-Gouverneur können Sie Ihre Metadaten einheitlich gestalten, indem Sie die Standards für Annotationen (mit Aspekttypen) und benutzerdefinierte Einträge (mithilfe von Eintragstypen) definieren. Weitere Informationen finden Sie unter Aspekte verwalten und Metadaten anreichern.
  • Als Data Engineer können Sie ein einheitliches Inventar für Ihre Ressourcen haben, einschließlich Google Cloud-Ressourcen und Ressourcen von Drittanbietersystemen. Google Cloud-Ressourcen werden automatisch von Dataplex Catalog und nicht von Google Cloud stammende Ressourcen von Ihnen abgerufen. Weitere Informationen finden Sie unter Einträge verwalten und benutzerdefinierte Quellen aufnehmen.

Wenn Sie Data Catalog bereits verwenden, beachten Sie Folgendes:

  • Benutzerdefinierte Einträge, Übersichtskontext und Eintragsgruppen, die Sie in Data Catalog erstellt haben, werden in Dataplex Catalog zur Verfügung gestellt.
  • In Data Catalog erstellte Tags und Tag-Vorlagen sind in Dataplex Catalog nicht verfügbar.
  • Wenn Sie in Dataplex Catalog nach Daten-Assets suchen, sind sowohl die Metadaten enthalten, die direkt in Dataplex Catalog erstellt wurden, als auch die Metadaten, die aus Data Catalog in Dataplex Catalog übertragen wurden.
  • Wenn Sie in Data Catalog nach Datenassets suchen, werden nur die in Data Catalog erstellten Metadaten berücksichtigt.
  • Beschreibungen von Eintragsgruppen in Data Catalog, die 1.024 Zeichen überschreiten, werden in Dataplex Catalog auf 1.024 Zeichen gekürzt.

Dataplex Catalog vs. Data Catalog

Dataplex Catalog bietet eine Funktion zum Verwalten Ihrer Metadaten in Dataplex. Es enthält einen separaten Metadatenspeicher und neue API-Methoden, die in die Dataplex API eingebunden sind.

Zu den Hauptfunktionen von Dataplex Catalog gehören:

  • Robusteres Metamodell

    • Eingegebene Einträge. Sie können Mindeststandards für Metadaten erzwingen, indem Sie den erforderlichen Metadateninhalt für benutzerdefinierte Einträge definieren.
    • Vom Nutzer konfigurierbares Metamodell für benutzerdefinierte Einträge, das die benutzerdefinierte Aufnahme robuster macht und die Konsistenz und den Umfang benutzerdefinierter Metadaten verbessert.
    • Unterstützung für eine größere Vielfalt und Komplexität von Metadaten, einschließlich Unterstützung für verschachtelte Strukturen wie Listen, Karten und Arrays.
  • Verbesserte Skalierbarkeit, einschließlich der Möglichkeit, mit allen Metadaten, die einem Eintrag über einzelne atomarische CRUD-Vorgänge zugeordnet sind, zu interagieren und mehrere Metadatenanmerkungen abzurufen, die in Such- oder Listenantworten verknüpft sind.

In der folgenden Tabelle werden die Features von Dataplex Catalog und Data Catalog verglichen:

Vergleich zwischen Dataplex Catalog und Data Catalog
Feature Dataplex-Katalog Data Catalog
Unterstützte Google Cloud-Quellen Alle Quellen, wie im Abschnitt Unterstützte Google Cloud-Quellen dieses Dokuments beschrieben. Alle unter Einträge und Eintragsgruppen beschriebenen Quellen
Aufnahme benutzerdefinierter Quellen

Aufnahme in benutzerdefinierte Einträge mit einer verwalteten Struktur, die durch Eintragstypen definiert ist.

Benutzerdefinierte Einträge und Eintragsgruppen von Data Catalog werden in Dataplex Catalog unter dem Eintragstyp generic zur Verfügung gestellt.

Aufnahme in generische benutzerdefinierte Einträge.
Metadaten-Anreicherung Der Metadatenkontext für Einträge wird mithilfe von Aspekten und Aspekttypen erfasst. Der Metadatenkontext für Einträge wird mithilfe von Tags und Tag-Vorlagen erfasst.
Suchen Die Suche wird für Folgendes ausgeführt:
  • Alle Google Cloud-Quellen, die unter Unterstützte Google Cloud-Quellen beschrieben werden
  • Benutzerdefinierte Einträge, die in Dataplex Catalog erstellt werden
  • Aspekte, die in Dataplex Catalog erstellt werden
  • Benutzerdefinierte Einträge, die in Data Catalog erstellt und in Dataplex Catalog eingebracht werden

Die Suchergebnisse enthalten nur Ressourcen, die zum selben VPC-SC-Perimeter wie das Projekt gehören, in dem die Suche ausgeführt wird. Wenn Sie die Google Cloud Console verwenden, ist dies das Projekt, das in der Console ausgewählt wird.

Die Suche wird für Folgendes ausgeführt:
  • Alle unter Einträge und Eintragsgruppen beschriebenen Google Cloud-Quellen
  • Benutzerdefinierte Einträge, die in Data Catalog erstellt werden
  • In Data Catalog erstellte Tags

In der folgenden Tabelle wird beschrieben, wie Dataplex Catalog-Ressourcen den Data Catalog-Ressourcen entsprechen:

Zuordnung zwischen Dataplex Catalog- und Data Catalog-Ressourcen
Dataplex Catalog-Ressource Data Catalog-Ressource Beschreibung
Aspekttyp (global) Öffentliche Tag-Vorlage Tag-Vorlagen sind regionale Ressourcen. Sie können sie jedoch verwenden, um Tags über Regionen hinweg zu erstellen. Tag-Vorlagen entsprechen global Aspekttypen in Dataplex Catalog.
Optionaler Aspekt Öffentliches Tag Öffentliche Tags in Data Catalog entsprechen optionalen Aspekten in Dataplex Catalog.
Eintragsgruppe Eintragsgruppe Für Google Cloud-Quellen werden Systemeintragsgruppen wie @bigquery pro Projekt in Dataplex Catalog eingerichtet.
Erforderliche Aspekte für benutzerdefinierten Eintrag Benutzerdefinierter Eintrag

Data Catalog und Dataplex Catalog haben ähnliche Konzepte für benutzerdefinierte Einträge.

Attribute von Standardeinträgen werden in Dataplex Catalog als erforderliche Aspekte modelliert.

Erforderliche Aspekte der Systemeingabe Systemeintrag (Google Cloud) Metadaten, die integrierte Entitäten beschreiben, wie Schema für BigQuery-Tabellen, werden in erforderlichen Aspekten der systemdefinierten Aspekttypen erfasst.

Weitere Informationen zu den in Data Catalog verfügbaren Features, die in Dataplex Catalog nicht unterstützt werden, finden Sie im Abschnitt In Dataplex Catalog nicht unterstützte Funktionen in diesem Dokument.

Unterstützte Google Cloud-Quellen

Metadaten aus den folgenden Google Cloud-Quellen werden automatisch in Dataplex Catalog aufgenommen:

  • Anzeigenplattformen und Einträge in Analytics Hub
  • BigQuery-Datasets, -Tabellen, -Modelle, -Routinen, Verbindungen und verknüpfte Datasets
  • Bigtable-Instanzen, -Cluster und -Tabellen (einschließlich Details zu Spaltenfamilien)
  • Cloud SQL-Instanzen, Datenbanken, Schemas, Tabellen, Ansichten
  • Dataproc Metastore-Dienste, -Datenbanken und -Tabellen
  • Pub/Sub-Themen
  • Spanner-Instanzen, -Datenbanken, -Tabellen und -Ansichten
  • Vertex AI-Modelle, Datasets

Projekt- und Standorteinschränkungen

Dataplex Catalog-Ressourcen befinden sich in verschiedenen Projekten und Standorten. Es gelten folgende Einschränkungen:

  • Ort:

    • Der Speicherort eines Eintrags muss entweder mit dem Speicherort des Eintragstyps übereinstimmen oder der Eintragstyp muss global sein.
    • Ein Aspekt, der einem Eintrag hinzugefügt wird, muss auf einem Aspekttyp basieren, der am selben Ort wie der Eintrag gespeichert ist, oder der Aspekttyp muss global sein.
    • Ein Eintragstyp muss aus Aspekttypen bestehen, die am selben Ort wie der Eintragstyp gespeichert sind.
  • Projekt:

    • Wenn ein Eintragstyp auf benutzerdefinierte Aspekttypen verweist, müssen sich die Aspekttypen am selben Ort und im selben Projekt wie der Eintragstyp befinden.

Features, die in Dataplex Catalog nicht unterstützt werden

Die folgenden in Data Catalog verfügbaren Features werden in Dataplex Catalog nicht unterstützt:

  • Das Konzept privater Aspekte und Aspekttypen wird in Dataplex Catalog nicht unterstützt. Der Zugriff auf Aspekte wird über Berechtigungen geregelt, die dem Eintrag zugeordnet sind, der die Aspekte enthält. Weitere Informationen finden Sie unter Dataplex-IAM-Rollen.
  • Die Suche nach Richtlinien-Tags wird in der Dataplex Catalog-Suche nicht unterstützt. Daher funktionieren die Prädikate policytag und policytagid in der Dataplex Catalog-Suche nicht.
  • Bei benutzerdefinierten Data Catalog-Einträgen, die in Dataplex Catalog aufgenommen werden, werden die vorhandenen IAM-Berechtigungen für Ihre aktuellen Metadaten nicht automatisch an kopierte Metadaten weitergegeben. Sie müssen für die kopierten Metadaten explizit IAM-Berechtigungen konfigurieren, bevor Sie sie verwenden können.
  • Das Senden von Jobergebnissen zum Schutz sensibler Daten an Dataplex Catalog wird nicht unterstützt.
  • Sie können Eintragstypen und Aspekttypen nicht über die API projektübergreifend auflisten. Sie können die Listenanfrage nur auf ein Projekt beschränken.
  • Sie können keine Begriffe im Business Glossar an die Spalten von Dataplex-Einträgen anhängen.
  • Sie können die Liste der erforderlichen Aspekttypen in einem Eintragstyp nach dem Erstellen des Eintragstyps nicht mehr ändern.

Preise

Dataplex verwendet die SKU des Metadatenspeichers, um den Metadatenspeicher in Rechnung zu stellen. Weitere Informationen finden Sie unter Dataplex-Preise.

Für die Nutzung folgender Produkte fallen keine Kosten an:

  • Dataplex Catalog-Ressourcen erstellen und verwalten
  • Search API-Aufrufe für Dataplex Catalog
  • Suchanfragen, die auf der Dataplex Catalog-Seite in der Google Cloud Console ausgeführt werden

Nächste Schritte