Dataplex Catalog – Übersicht

In diesem Dokument wird Dataplex Catalog beschrieben, der ein Plattform zum Speichern, Verwalten und Zugreifen auf Metadaten.

Dataplex Catalog bietet ein einheitliches Inventar von Google Cloud-Ressourcen wie BigQuery und andere Ressourcen, wie lokale Ressourcen. Metadaten für Google Cloud-Ressourcen werden abgerufen Metadaten für Ressourcen von Drittanbietern Dataplex-Katalog.

Mit Dataplex Catalog können Sie Ihr Inventar mit zusätzlichen geschäftlichen und technischen Metadaten, um den Kontext und das Wissen über Ihre Ressourcen. Mit Dataplex Catalog können Sie nach Ihre Daten im gesamten Unternehmen zu verwalten und Data Governance über Ihre Daten zu ermöglichen. Assets.

Anwendungsfälle

Mit Dataplex Catalog können Sie Folgendes tun:

  • Daten erkennen und verstehen Dataplex-Katalog bietet Transparenz über Ihre Datenressourcen im gesamten Unternehmen. Damit können finden Sie relevante Ressourcen für den Datenverbrauch. Sie liefert Kontext für Datenressourcen, die Ihnen helfen, die Eignung von Daten Ressourcen für die Anforderungen Ihres Datennutzers zu finden.

  • Data Governance und Datenverwaltung ermöglichen: Dataplex-Katalog stellt Metadaten bereit, die Ihre Data Governance und Ihre Daten unterstützen und unterstützen können. zu verwalten.

  • Pflegen Sie ein erweiterbares und umfassendes Repository für Ihre Metadaten. Dataplex Catalog speichert und bietet Zugriff auf Metadaten, die automatisch aus Ihren Google Cloud-Ressourcen abgerufen. Sie können eigene Metadaten aus Nicht-Google Cloud-Systemen integrieren. Sie können alle Metadaten mit zusätzlichen geschäftlichen und technischen Metadatenanmerkungen.

Funktionsweise von Dataplex Catalog

Dataplex Catalog basiert auf den folgenden Konzepten:

  • Eintrag: Ein Eintrag steht für ein Daten-Asset. Die meisten Metadaten werden nach Aspekten innerhalb eines Eintrags. Ähnlich wie bei Einträge in Data Catalog. Weitere Informationen finden Sie unter Einträge.

  • Aspekt: Ein Aspekt ist eine Reihe verwandter Metadatenfelder innerhalb eines Eintrags. Ein Aspekt kann entweder als Baustein eines Eintrags oder mit zusätzlichen Metadaten. Ähnlich wie bei Tags in Data Catalog, Aspekte werden jedoch in Einträgen und nicht als eigenständige Ressourcen gespeichert. Weitere Informationen finden Sie unter Aspekte.

  • Aspekttyp: Ein Aspekttyp ist eine wiederverwendbare Vorlage für Aspekte. Jeden Aspekt ist eine Instanz eines Aspekttyps. Ähnlich wie bei Tag-Vorlagen in Data Catalog. Weitere Informationen finden Sie unter Aspekttypen.

  • Eintragsgruppe: Eine Eintragsgruppe ist ein Container für Einträge, die als Verwaltungseinheit für diese Einträge. Verwenden Sie beispielsweise eine Eintragsgruppe, Konfigurieren Sie die IAM-Zugriffssteuerung, die Projektattribution oder den Standort für die Einträge in der Eintragsgruppe. Ähnlich wie bei Eintragsgruppen in Data Catalog. Weitere Informationen finden Sie unter Eintragsgruppen.

  • Eintragstyp: Ein Eintragstyp ist eine Vorlage zum Erstellen von Einträgen. Es legt die wesentlichen Metadatenelemente fest, die als Liste von erforderliche Aspekte für Einträge dieses Typs. Weitere Informationen finden Sie unter Eintragstypen:

    Einträge und Eintragsgruppen
    Abbildung 1. Einträge und Eintragsgruppen
    <ph type="x-smartling-placeholder">
    </ph> Aspekttypen und Eintragstypen
    Abbildung 2: Aspekttypen und Eintragstypen

Im Folgenden finden Sie einige Anwendungsfälle für Dataplex Catalog:

  • Als Fachkraft für Datenanalyse oder Business Analyst können Sie Einträge im gesamten der Organisation und der Untersuchung von Metadaten, die mit den Einträgen verknüpft sind. Für Weitere Informationen finden Sie unter Daten-Assets suchen.
  • Als Dateninhaber oder Datenverantwortlicher können Sie zusätzliche technische und geschäftliche Metadaten, indem Sie Ihre Einträge mit Aspekten annotieren. Weitere Informationen Siehe Aspekte verwalten und Metadaten anreichern.
  • Als Datenverantwortlicher oder Datenverantwortlicher können Sie für Konsistenz in Ihren durch Definition der Standards für Anmerkungen (mithilfe von Aspekttypen) und benutzerdefinierte Einträge (unter Verwendung von Eintragstypen). Weitere Informationen finden Sie unter Aspekte verwalten und Metadaten anreichern:
  • Als Data Engineer können Sie ein einheitliches Inventar für Ihre Ressourcen haben, einschließlich Google Cloud-Ressourcen und Ressourcen von Drittanbietersystemen. Google Cloud-Ressourcen werden automatisch von Dataplex Catalog- und Nicht-Google Cloud-Ressourcen werden die du geerntet hast. Weitere Informationen finden Sie unter Einträge verwalten und benutzerdefinierte Quellen aufnehmen

Wenn Sie Data Catalog bereits verwenden, beachten Sie Folgendes:

  • Benutzerdefinierte Einträge, Übersichtskontext und Eintragsgruppen, die Sie in Data Catalog werden in Dataplex Catalog zur Verfügung gestellt.
  • In Data Catalog erstellte Tags und Tag-Vorlagen sind nicht verfügbar in Dataplex-Katalog.
  • Wenn Sie in Dataplex Catalog nach Daten-Assets suchen, werden sowohl die Metadaten, die direkt in Dataplex Catalog erstellt wurden, und die aus Data Catalog in die Tabelle Dataplex Catalog sind enthalten.
  • Wenn Sie in Data Catalog nach Daten-Assets suchen, werden nur die Metadaten, die in Data Catalog erstellt wurden, sind enthalten.
  • Die Eintragsgruppenbeschreibungen in Data Catalog, die 1.024 überschreiten werden in der Tabelle auf 1024 Zeichen gekürzt Dataplex-Katalog.

Dataplex Catalog vs. Data Catalog

Dataplex Catalog bietet eine Funktion zum Verwalten Ihrer Metadaten in Dataplex. Es verfügt über einen separaten Metadatenspeicher und eine neue Gruppe von API-Methoden, die in die Dataplex API eingebunden sind.

Zu den Hauptfunktionen von Dataplex Catalog gehören:

  • Robusteres Metamodell

    • Eingegebene Einträge. Sie können minimale Metadatenstandards erzwingen, indem Sie die Erforderlicher Metadateninhalt für benutzerdefinierte Einträge
    • Vom Nutzer konfigurierbares Metamodell für benutzerdefinierte Einträge, mit dem benutzerdefinierte Daten sind robuster und die Konsistenz benutzerdefinierter Metadaten sowie umfangreich.
    • Unterstützung für eine größere Vielfalt und Komplexität von Metadaten, einschließlich Unterstützung zum Verschachteln von Strukturen wie Listen, Karten und Arrays.
  • Verbesserte Skalierbarkeit, einschließlich der Möglichkeit, mit allen Metadaten zu interagieren der mit einem Eintrag durch einzelne atomare CRUD-Operationen verknüpft ist, Abruf mehrerer Metadatenanmerkungen, die mit der Suche oder Liste verknüpft sind Antworten.

In der folgenden Tabelle werden die Features von Dataplex Catalog verglichen und Data Catalog:

Vergleich zwischen Dataplex Catalog und Data Catalog
Feature Dataplex-Katalog Data Catalog
Unterstützte Google Cloud-Quellen Alle Quellen gemäß Unterstützte Google Cloud-Quellen dieses Dokuments. Alle unter Einträge und Eintragsgruppen beschriebenen Quellen
Aufnahme benutzerdefinierter Quellen

Aufnahme in benutzerdefinierte Einträge mit geregelter Struktur, definiert durch Eintragstypen.

Benutzerdefinierte Einträge und Eintragsgruppen von Data Catalog werden in Dataplex Catalog unter dem Eintragstyp generic.

Aufnahme in generische benutzerdefinierte Einträge.
Metadaten-Anreicherung Der Metadatenkontext für Einträge wird mithilfe von Aspekten und Aspekttypen erfasst. Der Metadatenkontext für Einträge wird mithilfe von Tags und Tag-Vorlagen erfasst.
Suchen Die Suche wird für folgende Elemente ausgeführt: <ph type="x-smartling-placeholder">
    </ph>
  • Alle Google Cloud-Quellen beschrieben in Unterstützte Google Cloud-Quellen
  • Benutzerdefinierte Einträge, die in Dataplex Catalog erstellt werden
  • Aspekte, die in Dataplex Catalog erstellt werden
  • Benutzerdefinierte Einträge, die in Data Catalog erstellt werden und in Dataplex Catalog eingebracht

Die Suchergebnisse enthalten nur Ressourcen, die zum selben VPC-SC-Perimeter als Projekt, in dem die Suche ausgeführt wird. Bei Verwendung des Google Cloud Console ist das Projekt, das in der .

Für die Suche nach Einträgen benötigen Sie mindestens eine der Dataplex Catalog-IAM-Rollen das für die Suche verwendet wird. Berechtigungen für Suchergebnisse sind die unabhängig vom ausgewählten Projekt überprüft werden sollen.

Die Suche wird für folgende Elemente ausgeführt: <ph type="x-smartling-placeholder">
    </ph>
  • Alle Google Cloud-Quellen beschrieben in Einträge und Eintragsgruppen
  • Benutzerdefinierte Einträge, die in Data Catalog erstellt werden
  • In Data Catalog erstellte Tags

In der folgenden Tabelle wird beschrieben, wie Dataplex Catalog-Ressourcen Data Catalog-Ressourcen entsprechen:

Zuordnung zwischen Dataplex Catalog und Data Catalog Ressourcen
Dataplex Catalog-Ressource Data Catalog-Ressource Beschreibung
Aspekttyp (global) Öffentliche Tag-Vorlage Tag-Vorlagen sind regionale Ressourcen. Sie können sie jedoch nutzen, Tags in verschiedenen Regionen. Tag-Vorlagen entsprechen global Aspekt Typen in Dataplex Catalog können.
Optionaler Aspekt Öffentliches Tag Öffentliche Tags in Data Catalog entsprechen optionalen Aspekten in Dataplex-Katalog.
Eintragsgruppe Eintragsgruppe Für Google Cloud-Quellen Systemeintragsgruppen wie @bigquery werden projektweise in Dataplex Catalog eingerichtet.
Erforderliche Aspekte für benutzerdefinierten Eintrag Benutzerdefinierter Eintrag

Data Catalog- und Dataplex Catalog-Freigabe ähnliche Konzepte für benutzerdefinierte Einträge.

Standardeintragsattribute werden als erforderliche Aspekte in Dataplex-Katalog.

Erforderliche Aspekte der Systemeingabe Systemeintrag (Google Cloud) Metadaten, die integrierte Entitäten beschreiben, z. B. Schema für BigQuery-Tabellen in den erforderlichen Aspekten der und systemdefinierten Aspekttypen.

Weitere Informationen zu den verfügbaren Funktionen finden Sie unter Data Catalog und werden in Dataplex Catalog nicht unterstützt. Funktionen, die in Dataplex Catalog nicht unterstützt werden in diesem Dokument.

Unterstützte Google Cloud-Quellen

Metadaten aus den folgenden Google Cloud-Quellen werden automatisch aufgenommen in Dataplex Catalog:

  • Anzeigenplattformen und Einträge in Analytics Hub
  • BigQuery-Datasets, -Tabellen, -Modelle, -Routinen, -Verbindungen und verknüpfte Datasets
  • Bigtable-Instanzen, -Cluster und -Tabellen (einschließlich Spalte Familiendetails)
  • Cloud SQL-Instanzen, Datenbanken, Schemas, Tabellen, Ansichten
  • Dataproc Metastore-Dienste, -Datenbanken und -Tabellen
  • Pub/Sub-Themen
  • Spanner-Instanzen, -Datenbanken, -Tabellen und -Ansichten
  • Vertex AI-Modelle, Datasets

Projekt- und Standorteinschränkungen

Dataplex Catalog-Ressourcen befinden sich in verschiedenen Projekten und Standorte. Es gelten folgende Einschränkungen:

  • Standort:

    • Der Speicherort eines Eintrags muss mit dem Standort des Eintragstyps übereinstimmen, oder der Eintragstyp muss global sein.
    • Ein Aspekt, der einem Eintrag hinzugefügt wird, muss auf einem gespeicherten Aspekttyp basieren sich am selben Ort wie der Eintrag befinden oder der Aspekttyp global sein muss.
    • Ein Eintragstyp muss aus Aspekttypen bestehen, die im selben „location“ als Eintragstyp an.
  • Projekt:

    • Wenn ein Eintragstyp auf benutzerdefinierte Aspekttypen verweist, müssen die Aspekttypen am selben Ort und Projekt wie der Eintragstyp befinden.

Features, die in Dataplex Catalog nicht unterstützt werden

Die folgenden in Data Catalog verfügbaren Features sind unterstützt in Dataplex Catalog:

  • Das Konzept privater Aspekte und Aspekttypen wird in Dataplex-Katalog. Der Zugriff auf Aspekte wird durch die Berechtigungen, die mit dem Eintrag verknüpft sind, der die Aspekte enthält. Weitere Informationen finden Sie unter Dataplex-IAM-Rollen.
  • Die Suche nach Richtlinien-Tags wird in Dataplex Catalog nicht unterstützt Suche; Daher funktionieren die Prädikate policytag und policytagid nicht in der Dataplex Catalog-Suche.
  • Für benutzerdefinierte Data Catalog-Einträge, die in Dataplex Catalog, die vorhandenen IAM-Berechtigungen für Ihr Aktuelle Metadaten werden nicht automatisch an kopierte Metadaten weitergegeben. Du musst IAM-Berechtigungen für die kopierten Metadaten explizit konfigurieren, bevor Sie sie verwenden.
  • Ergebnisse von Jobs zum Schutz sensibler Daten senden an Dataplex Catalog wird nicht unterstützt.
  • Sie können Eintragstypen und Aspekttypen nicht über die API projektübergreifend auflisten. Sie können die Listenanfrage nur auf ein Projekt beschränken.
  • Sie können kein Unternehmensglossar anhängen zu den Spalten von Dataplex-Einträgen.
  • Danach können Sie die Liste der erforderlichen Aspekttypen in einem Eintragstyp nicht mehr ändern erstellen Sie den Eintragstyp.

Preise

Dataplex verwendet die SKU des Metadatenspeichers, um den Metadatenspeicher in Rechnung zu stellen. Weitere Informationen finden Sie unter Dataplex-Preise.

Für die Nutzung folgender Produkte fallen keine Kosten an:

  • Dataplex Catalog-Ressourcen erstellen und verwalten
  • Search API-Aufrufe für Dataplex Catalog
  • Suchanfragen, die auf der Dataplex Catalog-Seite in der Google Cloud Console

Nächste Schritte