Data Catalog – Übersicht

Das Data Catalog-Feature von Dataplex ist ein zentraler Bestand der Daten-Assets einer Organisation. Data Catalog katalogisiert automatisch Metadaten aus Google Cloud-Quellen wie BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable und mehr. Data Catalog indexiert auch Tabellen- und Dateisatzmetadaten aus Cloud Storage durch die Erkennung.

Mit der verwalteten organisationsweiten Metadatensuchfunktion von Dataplex können Sie Daten ermitteln. Sie können Metadaten mit kritischem Geschäftskontext weiter anreichern und Funktionen zur Herkunftsverfolgung, Datenprofilerstellung, Datenqualitätsprüfungen und Zugriffssteuerungsfunktionen aktivieren.

Mit Data Catalog können Organisationen Datenerkennung, Metadatenverwaltung und Governance verbessern.

Wozu benötigen Sie Data Catalog?

Die meisten Organisationen haben heute eine große und wachsende Anzahl von Datenassets.

Datenbeteiligte (Verbraucher, Ersteller und Administratoren) innerhalb einer Organisation stehen vor mehreren Herausforderungen:

  • Aufschlussreiche Daten suchen:

    • Datennutzer kennen den Ort und die Herkunft der Daten nicht. Sie müssen mit Daten- „Sümpfen“ navigieren.
    • Datennutzer wissen nicht, welche Daten sie gewinnen sollen, da die meisten Daten nicht gut dokumentiert sind und auch bei Dokumentation nicht gut verwaltet werden.
    • Daten können nicht gefunden und gehen oft verloren, wenn sie sich nur im Kopf befinden.
  • Informationen zu Daten:

    • Sind die Daten aktuell, sauber, validiert und für die Produktion genehmigt?
    • Welches aus mehreren doppelten Sets ist relevant und aktuell?
    • In welcher Beziehung steht ein Dataset zu einem anderen?
    • Wer verwendet die Daten und wer ist der Inhaber?
    • Wer und welche Prozesse transformieren die Daten?
  • Daten nutzbar machen:

    • Datenersteller haben keine effiziente Möglichkeit, Daten für Nutzer voranzubringen. Gibt es keinen Self-Service, können Nutzer den Ersteller überfordern. Mehrere Data Engineers können Daten nicht Tausenden von Datenanalysten manuell zur Verfügung stellen.

    • Wertvolle Zeit geht verloren, wenn Datennutzer herausfinden müssen, wie sie Datenzugriff anfordern, ohne festgelegte Antwortzeit warten, eskalieren und noch einmal warten müssen.

Ohne die richtigen Tools werden die Herausforderungen zu einem großen Hindernis für die effiziente Nutzung von Daten. Data Catalog bietet ein zentrales Repository, mit dem Organisationen Folgendes erreichen können:

  • Verschaffen Sie sich eine einheitliche Ansicht, um die Suche nach den richtigen Daten zu reduzieren.
  • Unterstützen Sie die datengestützte Entscheidungsfindung und beschleunigen Sie die Erkenntnisgewinnung, indem Sie Daten mit technischen und geschäftlichen Metadaten anreichern.
  • Verbessern Sie die Datenverwaltung, um die betriebliche Effizienz und Produktivität zu erhöhen.
  • Übernehmen Sie die Inhaberschaft für die Daten, um das Vertrauen in sie zu erhöhen.

Data Catalog-Funktionen

Data Catalog bietet drei Hauptfunktionen:

  • Es wird nach Dateneinträgen gesucht, auf die Sie Zugriff haben
  • Dateneinträge mit Metadaten taggen
  • Sicherheit auf Spaltenebene für BigQuery-Tabellen bereitstellen

Darüber hinaus kann Data Catalog auf den Ergebnissen eines Scans zum Schutz sensibler Daten aufbauen, um sensible Daten direkt in Data Catalog in Form von Tag-Vorlagen zu identifizieren.

So funktioniert Data Catalog

Data Catalog kann Asset-Metadaten aus verschiedenen Google Cloud-Systemen katalogisieren.

Sie können Data Catalog APIs auch zur Einbindung in benutzerdefinierte Datenquellen verwenden.

Nachdem Ihre Daten katalogisiert wurden, können Sie diesen Assets mithilfe von Tags eigene Metadaten hinzufügen.

Data Catalog erkennt Metadaten aus Google Cloud-Datenquellen wie BigQuery, Pub/Sub, Dataproc Metastore und Cloud Storage sowie aus Nicht-Cloud-Datenquellen wie Hive und Oracle.
Abbildung 1. Data Catalog liest Metadaten aus Google Cloud-Diensten und benutzerdefinierten Datenquellen.

Data Catalog-Metadaten

Data Catalog verarbeitet zwei Arten von Metadaten: technische Metadaten und Geschäftsmetadaten. Weitere Informationen zu Metadaten finden Sie unter Data Catalog-Metadaten.

Daten suchen und ermitteln

Data Catalog bietet eine leistungsstarke prädikatsbasierte Suchfunktion für technische und geschäftliche Metadaten, die mit einem Dateneintrag verknüpft sind. Sie benötigen die Berechtigungen zum Lesen der Metadaten für einen Dateneintrag, damit Sie die Suche und Erkennung auf die Metadaten anwenden können. Data Catalog indexiert die Daten nicht innerhalb eines Dateneintrags. Data Catalog indexiert nur die Metadaten, die ein Asset beschreiben.

Data Catalog steuert einige Metadaten, z. B. nutzergenerierte Tags. Für alle Metadaten, die aus dem zugrunde liegenden Speichersystem bezogen werden, ist Data Catalog ein schreibgeschützter Dienst, der die vom zugrunde liegenden Speichersystem bereitgestellten Metadaten und Berechtigungen widerspiegelt. Sie können im zugrunde liegenden Speichersystem Änderungen vornehmen, um die Metadaten eines Dateneintrags hinzuzufügen, zu aktualisieren oder zu löschen.

Weitere Informationen zur Data Catalog-Suche finden Sie unter Mit Data Catalog nach Datenassets suchen.

Automatische Katalogisierung von Assets

Für ein bestimmtes Projekt katalogisiert Data Catalog automatisch die folgenden Google Cloud-Assets:

  • Mit Analytics Hub verknüpfte Datasets
  • BigQuery-Datasets, -Tabellen, -Modelle, -Routinen und -Verbindungen
  • Bigtable-Instanzen, -Cluster und -Tabellen (einschließlich Details zu Spaltenfamilien)
  • Dataplex-Lakes, Zonen, Tabellen und Dateisätze
  • Dataproc Metastore-Dienste, -Datenbanken und -Tabellen
  • Pub/Sub-Themen
  • Spanner-Instanzen, -Datenbanken, -Tabellen und -Ansichten
  • Vertex AI-Modelle, Datasets und Vertex AI Feature Store-Ressourcen

Neben dem Katalogisieren von Assets innerhalb der Projekt-IDs, auf die Sie Metadatenzugriff haben, kann Data Catalog Daten katalogisieren, die in den BigQuery-Projekten gespeichert sind und öffentliche Datasets enthalten.

Nicht-Google Cloud-Assets katalogisieren

Um Metadaten aus Nicht-Google Cloud-Systemen in Ihrer Organisation zu katalogisieren, können Sie Folgendes verwenden:

Auf Data Catalog zugreifen

Auf Data Catalog-Funktionen können Sie über Folgendes zugreifen:

Nächste Schritte