Dataplex Catalog – Übersicht

In diesem Dokument wird Dataplex Catalog beschrieben, eine Plattform zum Speichern, Verwalten und Abrufen von Metadaten.

Der Dataplex-Katalog bietet ein einheitliches Inventar vonGoogle Cloud Ressourcen wie BigQuery und anderen Ressourcen wie On-Premises-Ressourcen. Dataplex Catalog ruft automatisch Metadaten für Google Cloud -Ressourcen ab. Sie fügen Metadaten für Drittanbieterressourcen in Dataplex Catalog hinzu.

Mit Dataplex Catalog können Sie Ihr Inventar mit zusätzlichen geschäftlichen und technischen Metadaten anreichern, um den Kontext und das Wissen über Ihre Ressourcen zu erfassen. Mit Dataplex Catalog können Sie Ihre Daten in der gesamten Organisation suchen und finden und die Datenverwaltung für Ihre Datenressourcen aktivieren.

Sie können Dataplex Catalog als Standardkatalog festlegen. Wenn Sie Data Catalog verwenden, sollten Sie Ihre Data Catalog-Inhalte und ‑Nutzung auf Dataplex Catalog umstellen. Weitere Informationen finden Sie unter Von Data Catalog auf Dataplex Catalog umstellen.

Anwendungsfälle

Mit Dataplex Catalog haben Sie folgende Möglichkeiten:

  • Daten ermitteln und auswerten Dataplex Catalog bietet einen Überblick über Ihre Datenressourcen in der gesamten Organisation. Sie können damit relevante Ressourcen für den Datenverbrauch finden. Sie liefert Kontext für Datenressourcen, damit Sie die Eignung von Datenressourcen für die Anforderungen Ihrer Datennutzer besser nachvollziehen können.

  • Data Governance und Datenverwaltung aktivieren Dataplex Catalog liefert Metadaten, die Ihre Datengovernance und Datenverwaltung unterstützen können.

  • Ein erweiterbares und umfassendes Repository für Ihre Metadaten bereitstellen Dataplex Catalog speichert und bietet Zugriff auf Metadaten, die automatisch aus Ihren Google Cloud Ressourcen erfasst werden. Sie können eigene Metadaten aus anderen Systemen einbinden.Google Cloud Sie können alle Metadaten mit zusätzlichen Anmerkungen zu Geschäfts- und technischen Metadaten anreichern.

So funktioniert Dataplex Catalog

Dataplex Catalog basiert auf den folgenden Konzepten:

  • Eintrag: Ein Eintrag stellt ein Daten-Asset dar. Die meisten Metadaten werden in einem Eintrag durch Aspekte beschrieben. Das ist vergleichbar mit Einträgen im Data Catalog. Weitere Informationen finden Sie unter Einträge.

  • Aspekt: Ein Aspekt ist ein Satz zusammengehöriger Metadatenfelder in einem Eintrag. Ein Aspekt kann entweder als Baustein eines Eintrags oder als zusätzliche Metadaten interpretiert werden. Das ähnelt Tags im Data Catalog. Allerdings werden Aspekte in Einträgen und nicht als eigenständige Ressourcen gespeichert. Weitere Informationen finden Sie unter Aspekte.

  • Aspekttyp: Ein Aspekttyp ist eine wiederverwendbare Vorlage für Aspekte. Jeder Aspekt ist eine Instanz eines Aspekttyps. Das ähnelt Tag-Vorlagen in Data Catalog. Weitere Informationen finden Sie unter Aspekttypen.

  • Eintragsgruppe: Eine Eintragsgruppe ist ein Container für Einträge, der als Verwaltungseinheit für diese Einträge dient. Sie können beispielsweise eine Eintragsgruppe verwenden, um die Zugriffssteuerung von Identity and Access Management, die Projektzuordnung oder den Standort für die Einträge in der Eintragsgruppe zu konfigurieren. Das ähnelt Eintragsgruppen in Data Catalog. Weitere Informationen finden Sie unter Eintragsgruppen.

  • Eintragstyp: Ein Eintragstyp ist eine Vorlage zum Erstellen von Einträgen. Es legt die wesentlichen Metadatenelemente fest, die als Liste der erforderlichen Aspekte für Einträge dieses Typs dargestellt werden. Weitere Informationen finden Sie unter Eintragstypen.

    Einträge und Eintragsgruppen
    Abbildung 1. Einträge und Eintragsgruppen
    Aspekttypen und Eintragstypen
    Abbildung 2. Aspekt- und Eintragstypen

Im Folgenden sind einige Anwendungsfälle für Dataplex Catalog aufgeführt:

  • Als Datenanalyst oder Unternehmensanalyst können Sie nach Einträgen in der gesamten Organisation suchen und Metadaten untersuchen, die mit den Einträgen verknüpft sind. Weitere Informationen finden Sie unter Nach Datenassets suchen.
  • Als Dateninhaber oder Datenverantwortlicher können Sie zusätzliche technische und geschäftliche Metadaten erfassen, indem Sie Ihre Einträge mit Aspekten annotieren. Weitere Informationen finden Sie unter Aspekte verwalten und Metadaten anreichern.
  • Als Dateninhaber oder Datenverantwortlicher können Sie für Einheitlichkeit bei Ihren Metadaten sorgen, indem Sie die Standards für Anmerkungen (mithilfe von Aspekttypen) und benutzerdefinierte Einträge (mithilfe von Eintragstypen) definieren. Weitere Informationen finden Sie unter Aspekte verwalten und Metadaten anreichern.
  • Als Data Engineer können Sie ein einheitliches Inventar für Ihre Ressourcen haben, einschließlich Google Cloud -Ressourcen und Ressourcen von Drittanbietersystemen.Google Cloud -Ressourcen werden automatisch von Dataplex Catalog erfasst und nichtGoogle Cloud -Ressourcen von Ihnen. Weitere Informationen finden Sie unter Einträge verwalten und benutzerdefinierte Quellen aufnehmen.

Für bestehende Data Catalog-Nutzer

Wenn Sie Data Catalog bereits verwenden, beachten Sie Folgendes:

  • Benutzerdefinierte Einträge, Übersichtskontexte und Eintragsgruppen, die Sie in Data Catalog erstellt haben, werden in Dataplex Catalog verfügbar gemacht.
  • Als Administrator können Sie festlegen, dass die Inhalte von Tag-Vorlagen und Tags aus Data Catalog gleichzeitig in Dataplex Catalog verfügbar gemacht werden. Weitere Informationen finden Sie unter Von Data Catalog auf Dataplex Catalog umstellen.
  • Wenn Sie in Dataplex Catalog nach Datenassets suchen, werden sowohl die Metadaten berücksichtigt, die direkt in Dataplex Catalog erstellt wurden, als auch die Metadaten, die aus Data Catalog in Dataplex Catalog importiert wurden.
  • Wenn Sie in Data Catalog nach Datenassets suchen, werden nur die in Data Catalog erstellten Metadaten berücksichtigt.
  • Beschreibungen von Eintragsgruppen in Data Catalog, die mehr als 1.024 Zeichen umfassen, werden in Dataplex Catalog auf 1.024 Zeichen gekürzt.

Weitere Informationen zur Umstellung Ihrer Data Catalog-Inhalte und -Nutzung auf Dataplex Catalog finden Sie unter Von Data Catalog auf Dataplex Catalog umstellen.

Dataplex Catalog und Data Catalog im Vergleich

Mit Dataplex Catalog können Sie Ihre Metadaten in Dataplex verwalten. Er bietet einen separaten Metadatenspeicher und eine neue Reihe von API-Methoden, die in die Dataplex API eingebunden sind.

Zu den wichtigsten Funktionen von Dataplex Catalog gehören:

  • Robusteres Metamodell

    • Eingegebene Einträge Sie können Mindeststandards für Metadaten erzwingen, indem Sie den erforderlichen Metadateninhalt für benutzerdefinierte Einträge definieren.
    • Ein vom Nutzer konfigurierbares Metamodell für benutzerdefinierte Einträge, das die benutzerdefinierte Datenaufnahme robuster macht und die Konsistenz und Vollständigkeit benutzerdefinierter Metadaten verbessert.
    • Unterstützung für eine größere Vielfalt und Komplexität von Metadaten, einschließlich Unterstützung für verschachtelte Strukturen wie Listen, Karten und Arrays.
  • Verbesserte Skalierbarkeit, einschließlich der Möglichkeit, über einzelne atomare CRUD-Vorgänge mit allen Metadaten zu interagieren, die mit einem Eintrag verknüpft sind, und der Möglichkeit, mehrere Metadaten-Hinweise abzurufen, die in Such- oder Listenantworten verknüpft sind.

In der folgenden Tabelle werden die Funktionen von Dataplex Catalog und Data Catalog verglichen:

Vergleich zwischen Dataplex Catalog und Data Catalog
Funktion Dataplex Catalog Data Catalog
Unterstützte Google Cloud -Quellen Alle Quellen, die im Abschnitt Unterstützte Quellen Google Cloud dieses Dokuments beschrieben sind. Alle Quellen, die unter Einträge und Eintragsgruppen beschrieben werden.
Datenaufnahme für benutzerdefinierte Quellen

Datenaufnahme in benutzerdefinierte Einträge mit einer verwalteten Struktur, die durch Eintragstypen definiert ist.

Benutzerdefinierte Einträge und Eintragsgruppen aus Data Catalog sind in Dataplex Catalog unter dem Eintragstyp generic verfügbar.

Datenaufnahme in generischen benutzerdefinierten Einträgen
Metadatenanreicherung Der Metadatenkontext für Einträge wird mithilfe von Aspekten und Aspekttypen erfasst. Der Metadatenkontext für Einträge wird mithilfe von Tags und Tag-Vorlagen erfasst.
Suchen Die Suche wird in folgenden Bereichen durchgeführt:
  • Alle Google Cloud Quellen, die unter Unterstützte Google Cloud Quellen beschrieben sind
  • Benutzerdefinierte Einträge, die in Dataplex Catalog erstellt werden
  • In Dataplex Catalog erstellte Aspekte
  • Benutzerdefinierte Einträge, die in Data Catalog erstellt und in Dataplex Catalog importiert werden

Die Suchergebnisse enthalten nur Ressourcen, die derselben Organisation und demselben VPC SC-Perimeter wie das Projekt angehören, in dem die Suche ausgeführt wird. In der Google Cloud Console ist dies das Projekt, das in der Console ausgewählt ist.

Wenn Sie nach Einträgen suchen möchten, benötigen Sie mindestens eine der IAM-Rollen für Dataplex Catalog für das Projekt, das für die Suche verwendet wird. Berechtigungen für Suchergebnisse werden unabhängig vom ausgewählten Projekt geprüft.

Die Suche wird in folgenden Bereichen durchgeführt:
  • Alle Google Cloud Quellen, die unter Einträge und Eintragsgruppen beschrieben sind
  • Benutzerdefinierte Einträge, die im Data Catalog erstellt werden
  • In Data Catalog erstellte Tags
Data Lineage

Bei der Datenabstammung werden die Datensatzdetails für Asset-Knoten mithilfe der Dataplex API abgerufen.

In der Google Cloud Console werden angehängte Aspekte angezeigt.

Über die Data Catalog API werden Eintragsdetails für Asset-Knoten abgerufen.

In der Google Cloud Console werden angehängte Tags und Glossarbegriffe angezeigt.

In der folgenden Tabelle wird beschrieben, wie Dataplex Catalog-Ressourcen mit Data Catalog-Ressourcen übereinstimmen:

Zuordnung zwischen Dataplex Catalog- und Data Catalog-Ressourcen
Dataplex Catalog-Ressource Data Catalog-Ressource Beschreibung
Aspekttyp (global) Vorlage für öffentliches Tag Tagvorlagen sind regionale Ressourcen. Sie können sie jedoch verwenden, um regionsumfassende Tags zu erstellen. Tag-Vorlagen entsprechen global-Aspekttypen in Dataplex Catalog.
Optionaler Aspekt Öffentliches Tag Öffentliche Tags in Data Catalog entsprechen optionalen Aspekten in Dataplex Catalog.
Eintragsgruppe Eintragsgruppe Für Google Cloud Quellen werden Systemeintragsgruppen wie @bigquery pro Projekt in Dataplex Catalog eingerichtet.
Erforderliche Aspekte für benutzerdefinierte Einträge Benutzerdefinierter Eintrag

Data Catalog und Dataplex Catalog haben ähnliche Konzepte für benutzerdefinierte Einträge.

Standardeintragseigenschaften werden in Dataplex Catalog als erforderliche Aspekte modelliert.

Erforderliche Aspekte für den Systemzugriff Eintrag „System“ (Google Cloud) Metadaten, die vordefinierte Entitäten beschreiben, z. B. Schema für BigQuery-Tabellen, werden in erforderlichen Aspekten der systemdefinierten Aspekttypen erfasst.

Weitere Informationen zu den Funktionen, die in Data Catalog verfügbar, aber in Dataplex Catalog nicht unterstützt werden, finden Sie in diesem Dokument im Abschnitt In Dataplex Catalog nicht unterstützte Funktionen.

Unterstützte Quellen

Metadaten aus den folgenden Google Cloud Quellen werden automatisch in Dataplex Catalog aufgenommen:

  • Analytics Hub-Marktplätze und ‑Einträge
  • BigQuery-Datasets, -Tabellen, -Modelle, -Routinen, -Verbindungen und verknüpfte Datasets
  • Bigtable-Instanzen, -Cluster und -Tabellen (einschließlich Details zur Spaltenfamilie)
  • Dataform-Repositories und Code-Assets
  • Cloud SQL-Instanzen, ‑Datenbanken, ‑Schemas, ‑Tabellen und ‑Ansichten: Cloud SQL-Integration aktivieren
  • Dataproc Metastore-Dienste, -Datenbanken und -Tabellen
  • Pub/Sub-Themen
  • Spanner-Instanzen, ‑Datenbanken, ‑Tabellen und ‑Ansichten
  • Vertex AI-Modelle, Datasets, Featuregruppen, Featureansichten und Onlinespeicherinstanzen

Wenn Sie Metadaten aus einer Drittanbieterquelle in Dataplex Catalog importieren möchten, können Sie eine verwaltete Verbindungspipeline verwenden.

Projekt- und Standorteinschränkungen

Dataplex Catalog-Ressourcen befinden sich in verschiedenen Projekten und an verschiedenen Standorten. Es gelten folgende Einschränkungen:

  • Standort:

    • Der Speicherort eines Eintrags muss entweder mit dem Speicherort des Eintragstyps übereinstimmen oder der Eintragstyp muss global sein.
    • Ein einem Eintrag hinzugefügter Aspekt muss auf einem Aspekttyp basieren, der sich am selben Speicherort wie der Eintrag befindet. Alternativ kann der Aspekttyp global sein.
    • Ein Eintragstyp muss aus Aspekttypen bestehen, die am selben Speicherort wie der Eintragstyp gespeichert sind.
  • Projekt:

    • Wenn ein Eintragstyp auf benutzerdefinierte Aspekttypen verweist, müssen sich die Aspekttypen am selben Ort und im selben Projekt wie der Eintragstyp befinden.

In Dataplex Catalog nicht unterstützte Funktionen

Die folgenden Funktionen, die in Data Catalog verfügbar sind, werden in Dataplex Catalog nicht unterstützt:

  • Das Konzept privater Aspekte und privater Aspekttypen (entsprechend privaten Tags und privaten Tag-Vorlagen in Data Catalog) gibt es in Dataplex Catalog nicht.
  • Die Suche nach Richtlinien-Tags wird in der Dataplex Catalog-Suche nicht unterstützt. Daher funktionieren die Prädikate policytag und policytagid nicht in der Dataplex Catalog-Suche.
  • Wenn Sie benutzerdefinierte Eintragsgruppen, benutzerdefinierte Einträge, Tag-Vorlagen und Tags aus Data Catalog in Dataplex Catalog übertragen, werden die ursprünglichen Berechtigungen nicht übernommen. Sie müssen IAM-Berechtigungen für die kopierten Metadaten explizit konfigurieren, bevor Sie sie verwenden können.
  • Terraform unterstützt das Verwalten von Aspekten und benutzerdefinierten Einträgen nicht. Stattdessen können Sie Ihre benutzerdefinierten Metadaten programmgesteuert im großen Umfang verwalten, indem Sie eine verwaltete Konnektivitätspipeline oder die API-Methoden für den Metadatenimport verwenden. Terraform unterstützt Eintragsgruppen, Eintragstypen und Aspekttypen. Weitere Informationen finden Sie unter Dataplex-Ressourcen mit Terraform bereitstellen.
  • Das Senden von Ergebnissen der Prüfung zum Schutz sensibler Daten direkt an Dataplex Catalog wird nicht unterstützt. Stattdessen können Sie Ergebnisse der Prüfung für den Schutz sensibler Daten an Data Catalog senden und dann die Ergebnisse in Dataplex Catalog übertragen.
  • Mit der API können Sie keine Eintrags- und Aspekttypen für mehrere Projekte auflisten. Sie können die Listenanfrage auf ein Projekt beschränken.
  • Sie können den Spalten von Dataplex Catalog-Einträgen keine Begriffe aus dem Glossar für Unternehmen (Vorabversion) hinzufügen.
  • Das Registrieren von Dataplex-Lakes, -Zonen, -Assets und -Entitäten als Einträge im Dataplex Catalog wird nicht unterstützt. Außerdem wird das Filtern nach Seen oder Zonen bei der Verwendung der Dataplex Catalog-Suche nicht unterstützt. Sie können Datenseen und Zonen unabhängig von Dataplex Catalog verwenden.
  • Die Administratorsuche, die einen vollständigen Abruf ermöglicht, wird nicht unterstützt.

Einen Vergleich der Funktionen und Ressourcen, die sowohl in Dataplex Catalog als auch in Data Catalog unterstützt werden, finden Sie in diesem Dokument im Abschnitt Dataplex Catalog im Vergleich zu Data Catalog.

Preise

In Dataplex wird die SKU für den Metadatenspeicher verwendet, um die Kosten für den Metadatenspeicher in Rechnung zu stellen. Weitere Informationen finden Sie unter Dataplex-Preise.

Für die Nutzung der folgenden Funktionen fallen keine Gebühren an:

  • Dataplex Catalog-Ressourcen erstellen und verwalten
  • Search API-Aufrufe für Dataplex Catalog
  • Suchanfragen, die auf der Seite „Dataplex Catalog“ in der Google Cloud Console ausgeführt werden

Nächste Schritte