Was ist Data Catalog?

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung in Dataplex.

Wozu brauchen Sie Data Catalog?

Die meisten Organisationen haben heute eine große und wachsende Anzahl von Datenassets.

Daten-Stakeholder (Verbraucher, Produzenten und Administratoren) innerhalb einer Organisation stehen mehreren Herausforderungen gegenüber:

  • Aufschlussreiche Daten suchen:

    • Datenverbraucher kennen den Standort und den Ursprung von Daten nicht. Sie müssen sich um Datensümpfe kümmern.
    • Datennutzer wissen nicht, welche Daten sie gewinnen sollen, da die meisten Daten nicht gut dokumentiert sind und auch bei Dokumentation nicht gut verwaltet werden.
    • Daten können nicht gefunden und gehen oft verloren, wenn sie sich nur im Kopf befinden.
  • Informationen zu Daten:

    • Sind die Daten aktuell, sauber, validiert und für die Produktion genehmigt?
    • Welches Dataset aus mehreren doppelten Sätzen ist relevant und aktuell?
    • In welcher Beziehung steht ein Dataset zu einem anderen?
    • Wer verwendet die Daten und wer ist der Inhaber?
    • Wer und welche Prozesse transformieren die Daten?
  • Daten nutzbar machen:

    • Datenersteller haben keine effiziente Möglichkeit, Daten für Nutzer voranzubringen. Gibt es keinen Self-Service, können Nutzer den Ersteller überfordern. Mehrere Data Engineers können Daten nicht Tausenden von Datenanalysten manuell zur Verfügung stellen.

    • Wertvolle Zeit geht verloren, wenn Datennutzer herausfinden müssen, wie sie Datenzugriff anfordern, ihn beantragen, ohne definierte Antwortzeit warten, eskalieren und noch einmal warten.

Ohne die richtigen Tools werden die Herausforderungen zu einem großen Hindernis für die effiziente Nutzung von Daten. Data Catalog bietet einen zentralen Ort, an dem Organisationen Folgendes erreichen können:

  • Verschaffen Sie sich eine einheitliche Ansicht, um die Suche nach den richtigen Daten zu reduzieren.
  • Durch die Anreicherung von Daten mit technischen und geschäftlichen Metadaten können Sie datengestützte Entscheidungen treffen und Ihre Informationen schneller auswerten.
  • Verbessern Sie die Datenverwaltung, um die betriebliche Effizienz und Produktivität zu erhöhen.
  • Übernehmen Sie die Inhaberschaft für die Daten, um das Vertrauen in sie zu erhöhen.

Data Catalog-Funktionen

Data Catalog bietet drei Hauptfunktionen:

  • Nach Dateneinträgen suchen, auf die Sie Zugriff haben
  • Dateneinträge mit Metadaten taggen
  • BigQuery-Tabellen mit Sicherheit auf Spaltenebene schützen

Darüber hinaus kann Data Catalog die Ergebnisse eines Cloud Data Loss Prevention-Scans (DLP) nutzen, um sensible Daten direkt in Data Catalog in Form von Tag-Vorlagen zu identifizieren.

So funktioniert der Data Catalog

Data Catalog kann Asset-Metadaten aus verschiedenen Google Cloud-Systemen katalogisieren.

Mit Data Catalog APIs lassen sich auch benutzerdefinierte Datenquellen einbinden.

Nachdem Ihre Daten katalogisiert wurden, können Sie Ihren Assets mithilfe von Tags eigene Metadaten hinzufügen.

In Data Catalog werden Dateneinträge aus Pub/Sub, BigQuery, Dataplex, Dataproc Metastore und Cloud Storage katalogisiert.

Abbildung 1. Architektur von Data Catalog

Data Catalog-Metadaten

Der Data Catalog verarbeitet zwei Arten von Metadaten: technische Metadaten und Geschäftsmetadaten. Weitere Informationen zu Metadaten finden Sie unter Data Catalog-Metadaten.

Daten suchen und ermitteln

Data Catalog bietet eine einfache, aber leistungsstarke, prädikatenbasierte Suche für technische und geschäftliche Metadaten, die mit einem Dateneintrag verknüpft sind. Sie benötigen die Berechtigungen zum Lesen der Metadaten für einen Dateneintrag, damit Sie die Suche und Auffindbarkeit auf die Metadaten anwenden können. Data Catalog indexiert die Daten in einem Dateneintrag nicht. Data Catalog indexiert nur die Metadaten, die ein Asset beschreiben.

Data Catalog steuert einige Metadaten, z. B. von Nutzern erstellte Tags. Für alle Metadaten, die aus dem zugrunde liegenden Speichersystem stammen, ist Data Catalog ein schreibgeschützter Dienst, der die vom zugrunde liegenden Speichersystem bereitgestellten Metadaten und Berechtigungen widerspiegelt. Sie können Änderungen am zugrunde liegenden Speichersystem vornehmen, um die Metadaten eines Dateneintrags hinzuzufügen, zu aktualisieren oder zu löschen.

Weitere Informationen zur Data Catalog-Suche finden Sie unter Mit Data Catalog nach Datenassets suchen.

Automatischer Asset-Katalog

Für ein bestimmtes Projekt katalogisiert Data Catalog automatisch die folgenden Google Cloud-Assets:

  • BigQuery-Datasets, -Tabellen, -Ansichten.
  • Pub/Sub-Themen
  • Dataplex-Lake, -Zonen, -Tabellen und -Dateisätze.
  • Mit Analytics Hub verknüpfte Datasets
  • (Öffentliche Vorschau): Dataproc Metastore-Dienste, Datenbanken und Tabellen.

Data Catalog kann nicht nur Assets in den Projekt-IDs katalogisieren, auf die Sie Metadatenzugriff haben, sondern auch Daten katalogisieren, die in BigQuery-Projekten gespeichert sind und öffentliche Datasets enthalten.

Nicht-GCP-Assets katalogisieren

Zum Katalogisieren von Metadaten aus Nicht-GCP-Systemen in Ihrer Organisation können Sie Folgendes verwenden:

Auf Data Catalog zugreifen

Sie haben folgende Möglichkeiten, um auf Data Catalog-Funktionen zuzugreifen:

Nächste Schritte