Data Catalog – Übersicht

Die Data Catalog-Funktion von Dataplex ist ein zentrales Inventar der Daten-Assets einer Organisation. Data Catalog katalogisiert automatisch Metadaten aus Google Cloud-Quellen wie BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable und mehr. Data Catalog indexiert außerdem Tabellen- und Dateisatzmetadaten aus Cloud Storage über die Erkennung.

Mit der verwalteten organisationsweiten Metadatensuchfunktion von Dataplex können Sie Daten ganz einfach finden. Sie können Metadaten mit kritischem Geschäftskontext weiter anreichern und Herkunfts-Tracking, Datenprofilerstellung, Datenqualitätsprüfungen und Zugriffssteuerungsfunktionen aktivieren.

Mit Data Catalog können Organisationen die Datenermittlung, Metadatenverwaltung und Governance verbessern.

Wozu benötigen Sie Data Catalog?

Die meisten Organisationen haben heute eine große und wachsende Anzahl von Datenassets.

Daten-Stakeholder (Verbraucher, Ersteller und Administratoren) in einer Organisation stehen vor mehreren Herausforderungen:

  • Aufschlussreiche Daten suchen:

    • Datennutzer kennen den Standort und die Herkunft der Daten nicht. Sie müssen durch Datensümpfe navigieren.
    • Datennutzer wissen nicht, welche Daten sie gewinnen sollen, da die meisten Daten nicht gut dokumentiert sind und auch bei Dokumentation nicht gut verwaltet werden.
    • Daten können nicht gefunden und gehen oft verloren, wenn sie sich nur im Kopf befinden.
  • Informationen zu Daten:

    • Sind die Daten aktuell, sauber, validiert und für die Produktion genehmigt?
    • Welches Dataset aus mehreren doppelten Sätzen ist relevant und aktuell?
    • In welcher Beziehung steht ein Dataset zu einem anderen?
    • Wer verwendet die Daten und wer ist der Inhaber?
    • Wer und welche Prozesse transformieren die Daten?
  • Daten nutzbar machen:

    • Datenersteller haben keine effiziente Möglichkeit, Daten für Nutzer voranzubringen. Gibt es keinen Self-Service, können Nutzer den Ersteller überfordern. Mehrere Data Engineers können Daten nicht Tausenden von Datenanalysten manuell zur Verfügung stellen.

    • Wenn Datennutzer herausfinden müssen, wie sie Datenzugriff anfordern, ohne festgelegte Antwortzeit warten, eskalieren und noch einmal warten müssen, geht kostbare Zeit verloren.

Ohne die richtigen Tools werden die Herausforderungen zu einem großen Hindernis für die effiziente Nutzung von Daten. Data Catalog bietet ein zentralisiertes Repository, mit dem Organisationen Folgendes erreichen können:

  • Verschaffen Sie sich eine einheitliche Ansicht, um die Suche nach den richtigen Daten zu reduzieren.
  • Unterstützen Sie die datengestützte Entscheidungsfindung und beschleunigen Sie die Informationsgewinnung, indem Sie die Daten mit technischen und geschäftlichen Metadaten anreichern.
  • Verbessern Sie die Datenverwaltung, um die betriebliche Effizienz und Produktivität zu erhöhen.
  • Übernehmen Sie die Inhaberschaft für die Daten, um das Vertrauen in sie zu erhöhen.

Data Catalog-Funktionen

Data Catalog bietet drei Hauptfunktionen:

  • Nach Dateneinträgen suchen, auf die Sie Zugriff haben
  • Dateneinträge mit Metadaten taggen
  • Sicherheit auf Spaltenebene für BigQuery-Tabellen bereitstellen

Darüber hinaus kann Data Catalog auf den Ergebnissen eines Scans zum Schutz sensibler Daten aufbauen, um sensible Daten direkt in Data Catalog in Form von Tag-Vorlagen zu identifizieren.

So funktioniert Data Catalog

Data Catalog kann Asset-Metadaten aus verschiedenen Google Cloud-Systemen katalogisieren.

Data Catalog APIs lassen sich auch für die Integration in benutzerdefinierte Datenquellen verwenden.

Nach der Katalogisierung Ihrer Daten können Sie diesen Assets mithilfe von Tags eigene Metadaten hinzufügen.

Data Catalog erkennt Metadaten aus Google Cloud-Datenquellen wie BigQuery, Pub/Sub, Dataproc Metastore und Cloud Storage sowie aus Nicht-Cloud-Datenquellen wie Hive und Oracle.
Abbildung 1. Data Catalog liest Metadaten aus Google Cloud-Diensten und benutzerdefinierten Datenquellen.

Data Catalog-Metadaten

Data Catalog verarbeitet zwei Arten von Metadaten: technische Metadaten und Geschäftsmetadaten. Weitere Informationen zu Metadaten finden Sie unter Data Catalog-Metadaten.

Daten suchen und ermitteln

Data Catalog bietet eine leistungsstarke, prädikatenbasierte Suche nach technischen und geschäftlichen Metadaten, die mit einem Dateneintrag verknüpft sind. Sie benötigen die Berechtigungen zum Lesen der Metadaten eines Dateneintrags, damit Sie die Suche und Erkennung auf die Metadaten anwenden können. Data Catalog indexiert nicht die Daten in einem Dateneintrag. Data Catalog indexiert nur die Metadaten, die ein Asset beschreiben.

Data Catalog steuert einige Metadaten, z. B. nutzergenerierte Tags. Für alle Metadaten aus dem zugrunde liegenden Speichersystem ist Data Catalog ein schreibgeschützter Dienst, der die vom zugrunde liegenden Speichersystem bereitgestellten Metadaten und Berechtigungen widerspiegelt. Sie können Änderungen im zugrunde liegenden Speichersystem vornehmen, um die Metadaten eines Dateneintrags hinzuzufügen, zu aktualisieren oder zu löschen.

Weitere Informationen zur Data Catalog-Suche finden Sie unter Mit Data Catalog nach Datenassets suchen.

Automatischer Asset-Katalog

Für ein bestimmtes Projekt katalogisiert Data Catalog automatisch die folgenden Google Cloud-Assets:

  • Verknüpfte Analytics Hub-Datasets
  • BigQuery-Datasets, -Tabellen, -Modelle, -Routinen und -Verbindungen
  • Dataplex-Lakes, -Zonen, -Tabellen und -Dateisätze
  • Dataproc Metastore-Dienste, -Datenbanken und -Tabellen
  • Pub/Sub-Themen
  • Bigtable-Instanzen, -Cluster und -Tabellen (einschließlich Details zu Spaltenfamilien)
  • Vertex AI-Modelle, Datasets und Vertex AI Feature Store-Ressourcen Hinweis: Wenn ein Projektname : enthält, katalogisiert Dataplex die in diesem Projekt erstellten FeatureView- und Feature-Ressourcen nicht.
  • Spanner-Instanzen, -Datenbanken, -Tabellen und -Ansichten

Neben der Katalogisierung von Assets innerhalb der Projekt-IDs, auf die Sie Metadatenzugriff haben, kann Data Catalog Daten katalogisieren, die in den BigQuery-Projekten gespeichert sind und öffentliche Datasets enthalten.

Katalogisieren von Nicht-Google Cloud-Assets

Sie können Folgendes verwenden, um Metadaten aus Nicht-Google Cloud-Systemen in Ihrer Organisation zu katalogisieren:

Auf Data Catalog zugreifen

Sie haben folgende Möglichkeiten, auf Data Catalog-Funktionen zuzugreifen:

Nächste Schritte