Data Catalog – Übersicht

Das Data Catalog-Feature von Dataplex ist ein zentrales Inventar der Daten-Assets einer Organisation. Data Catalog katalogisiert automatisch Metadaten aus Google Cloud-Quellen wie BigQuery, Vertex AI, Pub/Sub, Spanner und Bigtable. Data Catalog indexiert auch Tabellen- und Dateisatzmetadaten aus Cloud Storage über die Ermittlung.

Mit der unternehmensweiten Metadatensuche von Dataplex können Sie Daten finden. Sie können Metadaten mit wichtigen Geschäftskontexten anreichern und Herkunftsaufzeichnungen, Datenprofilierung, Datenqualitätsprüfungen und Zugriffssteuerungsfunktionen aktivieren.

Mit Data Catalog können Organisationen Daten besser ermitteln, Metadaten verwalten und die Datenverwaltung optimieren.

Wozu benötigen Sie Data Catalog?

Die meisten Organisationen haben eine große und wachsende Anzahl von Datenassets. Daten-Stakeholder (Nutzer, Ersteller und Administratoren) in einer Organisation stehen vor mehreren Herausforderungen, darunter:

  • Aufschlussreiche Daten suchen:

    • Datennutzer kennen den Speicherort und die Herkunft der Daten nicht. Sie müssen die Daten, die sie durchgehen, bewältigen.
    • Datennutzer wissen nicht, welche Daten sie gewinnen sollen, da die meisten Daten nicht gut dokumentiert sind und auch bei Dokumentation nicht gut verwaltet werden.
    • Daten können nicht gefunden und gehen oft verloren, wenn sie sich nur im Kopf befinden.
  • Informationen zu Daten:

    • Sind die Daten aktuell, sauber, validiert und für die Produktion genehmigt?
    • Welches Dataset aus mehreren doppelten Datensätzen ist relevant und auf dem neuesten Stand?
    • Wie stehen zwei Datensätze in Beziehung zueinander?
    • Wer verwendet die Daten und wer ist der Inhaber?
    • Wer und welche Prozesse transformieren die Daten?
  • Daten nutzbar machen:

    • Datenersteller haben keine effiziente Möglichkeit, Daten für Nutzer voranzubringen. Gibt es keinen Self-Service, können Nutzer den Ersteller überfordern. Mehrere Data Engineers können Daten nicht Tausenden von Datenanalysten manuell zur Verfügung stellen.

    • Wertvolle Zeit geht verloren, wenn Datennutzer herausfinden müssen, wie sie Datenzugriff anfordern, ihn beantragen, ohne definierte Antwortzeit warten, eskalieren und noch einmal warten.

Ohne die richtigen Tools stellen die Herausforderungen ein erhebliches Hindernis für die effiziente Nutzung von Daten dar. Data Catalog bietet ein zentrales Repository, mit dem Organisationen Folgendes erreichen können:

  • Verschaffen Sie sich eine einheitliche Ansicht, um die Suche nach den richtigen Daten zu reduzieren.
  • Unterstützen Sie datengestützte Entscheidungen und beschleunigen Sie die Informationsgewinnung, indem Sie Daten mit technischen und geschäftlichen Metadaten anreichern.
  • Verbessern Sie die Datenverwaltung, um die betriebliche Effizienz und Produktivität zu erhöhen.
  • Übernehmen Sie die Inhaberschaft für die Daten, um das Vertrauen in sie zu erhöhen.

Data Catalog-Funktionen

Der Data Catalog bietet drei Hauptfunktionen:

  • Nach Dateneinträgen suchen, auf die Sie Zugriff haben
  • Dateneinträge mit Metadaten taggen
  • Sicherheit auf Spaltenebene für BigQuery-Tabellen

Darüber hinaus kann Data Catalog die Ergebnisse eines Scans zum Schutz sensibler Daten verwenden, um sensible Daten direkt in Data Catalog in Form von Tag-Vorlagen zu identifizieren.

So funktioniert der Data Catalog

Data Catalog kann Asset-Metadaten aus verschiedenen Google Cloud-Systemen katalogisieren.

Sie können Data Catalog APIs auch für die Einbindung in benutzerdefinierte Datenquellen verwenden.

Nach der Katalogisierung Ihrer Daten können Sie diesen Assets mithilfe von Tags eigene Metadaten hinzufügen.

Data Catalog erkennt Metadaten aus Google Cloud-Datenquellen wie BigQuery, Pub/Sub, Dataproc Metastore und Cloud Storage sowie aus nicht cloudbasierten Datenquellen wie Hive und Oracle.
Abbildung 1. Data Catalog liest Metadaten aus Google Cloud-Diensten und benutzerdefinierten Datenquellen.

Data Catalog-Metadaten

Data Catalog verarbeitet zwei Arten von Metadaten: technische Metadaten und Geschäftsmetadaten. Weitere Informationen zu Metadaten finden Sie unter Data Catalog-Metadaten.

Daten suchen und ermitteln

Data Catalog bietet eine leistungsfähige prädikatbasierte Suche für technische und geschäftliche Metadaten, die mit einem Dateneintrag verknüpft sind. Sie müssen die Berechtigungen zum Lesen der Metadaten für einen Dateneintrag haben, damit Sie die Metadaten suchen und finden können. Data Catalog indiziert die Daten innerhalb eines Dateneintrags nicht. Der Data Catalog indiziert nur die Metadaten, die ein Asset beschreiben.

Data Catalog steuert einige Metadaten, z. B. nutzergenerierte Tags. Für alle Metadaten aus dem zugrunde liegenden Speichersystem nimmt Data Catalog jedoch nur Lesezugriffe vor und spiegelt die Metadaten und Berechtigungen des zugrunde liegenden Speichersystems wider. Sie können im zugrunde liegenden Speichersystem Änderungen vornehmen, um die Metadaten eines Dateneintrags hinzuzufügen, zu aktualisieren oder zu löschen.

Weitere Informationen zur Data Catalog-Suche finden Sie unter Mit Data Catalog nach Datenassets suchen.

Automatische Katalogisierung von Assets

Für ein bestimmtes Projekt katalogisiert Data Catalog automatisch die folgenden Google Cloud-Assets:

  • Mit Analytics Hub verknüpfte Datensätze
  • BigQuery-Datasets, -Tabellen, -Modelle, -Routinen und -Verbindungen
  • Bigtable-Instanzen, -Cluster und -Tabellen (einschließlich Details zu Spaltenfamilien)
  • Dataplex-Lakes, -Zonen, -Tabellen und -Datensätze
  • Dataproc Metastore-Dienste, -Datenbanken und -Tabellen
  • Pub/Sub-Themen
  • Spanner-Instanzen, ‑Datenbanken, ‑Tabellen und ‑Ansichten
  • Vertex AI-Modelle, Datasets und Vertex AI Feature Store-Ressourcen

Neben der Katalogisierung von Assets in den Projekt-IDs, auf deren Metadaten Sie zugreifen können, kann Data Catalog auch Daten katalogisieren, die in den BigQuery-Projekten mit öffentlichen Datasets gespeichert sind.

Nicht-Google Cloud-Assets katalogisieren

Zum Katalogisieren von Metadaten aus Nicht-Google Cloud-Systemen in Ihrer Organisation können Sie Folgendes verwenden:

Auf Data Catalog zugreifen

Sie haben folgende Möglichkeiten, auf die Funktionen von Data Catalog zuzugreifen:

Nächste Schritte