Data Catalog – Übersicht

Das Data Catalog-Feature von Dataplex ist ein zentrales Inventar der Datenbestände einer Organisation. Data Catalog katalogisiert automatisch Metadaten aus Google Cloud-Quellen wie BigQuery, Vertex AI, Pub/Sub, Spanner und Bigtable. Data Catalog indexiert auch Metadaten von Tabellen und Dateisätzen über die Erkennung in Cloud Storage erhalten.

Sie können Daten mit der organisationsweiten Version von Dataplex Metadaten-Suchfunktion. Sie können Metadaten mit wichtigen Geschäftskontexten anreichern und Herkunftsaufzeichnungen, Datenprofilierung, Datenqualitätsprüfungen und Zugriffssteuerungsfunktionen aktivieren.

Mit Data Catalog können Organisationen Daten besser ermitteln, Metadaten verwalten und die Datenverwaltung optimieren.

Wozu benötigen Sie Data Catalog?

Die meisten Organisationen haben heute eine große und wachsende Anzahl von Datenassets.

Daten-Stakeholder (Verbraucher, Produzenten und Administratoren) innerhalb eines Unternehmen stehen vor mehreren Herausforderungen:

  • Aufschlussreiche Daten suchen:

    • Datennutzer kennen den Ort und die Herkunft der Daten nicht. Sie müssen die Daten, die sie durchgehen, bewältigen.
    • Datennutzer wissen nicht, welche Daten sie gewinnen sollen, da die meisten Daten nicht gut dokumentiert sind und auch bei Dokumentation nicht gut verwaltet werden.
    • Daten können nicht gefunden und gehen oft verloren, wenn sie sich nur im Kopf befinden.
  • Informationen zu Daten:

    • Sind die Daten aktuell, sauber, validiert und für die Produktion genehmigt?
    • Welches Dataset aus mehreren doppelten Datensätzen ist relevant und auf dem neuesten Stand?
    • In welcher Beziehung steht ein Dataset zu einem anderen?
    • Wer verwendet die Daten und wer ist der Inhaber?
    • Wer und welche Prozesse transformieren die Daten?
  • Daten nutzbar machen:

    • Datenersteller haben keine effiziente Möglichkeit, Daten für Nutzer voranzubringen. Gibt es keinen Self-Service, können Nutzer den Ersteller überfordern. Mehrere Data Engineers können Daten nicht Tausenden von Datenanalysten manuell zur Verfügung stellen.

    • Wertvolle Zeit geht verloren, wenn Datennutzer herausfinden müssen, wie sie sie anfordern können. Datenzugriff, ohne festgelegte Antwortzeit warten, eskalieren und noch einmal warten.

Ohne die richtigen Tools werden die Herausforderungen zu einem großen Hindernis zur effizienten Nutzung von Daten. Data Catalog bietet eine zentrale Repository, mit dem Organisationen Folgendes erreichen können:

  • Verschaffen Sie sich eine einheitliche Ansicht, um die Suche nach den richtigen Daten zu reduzieren.
  • Unterstützen Sie datengestützte Entscheidungen und beschleunigen Sie die Informationsgewinnung, indem Sie Daten mit technischen und geschäftlichen Metadaten anreichern.
  • Verbessern Sie die Datenverwaltung, um die betriebliche Effizienz und Produktivität zu erhöhen.
  • Übernehmen Sie die Inhaberschaft für die Daten, um das Vertrauen in sie zu erhöhen.

Data Catalog-Funktionen

Data Catalog bietet drei Hauptfunktionen:

  • Es wird nach Dateneinträgen gesucht, auf die Sie Zugriff haben
  • Dateneinträge mit Metadaten taggen
  • Sicherheit auf Spaltenebene für BigQuery-Tabellen bereitstellen

Darüber hinaus kann Data Catalog die Ergebnisse eines Scans zum Schutz sensibler Daten verwenden, um sensible Daten direkt in Data Catalog in Form von Tag-Vorlagen zu identifizieren.

So funktioniert der Data Catalog

Data Catalog kann Asset-Metadaten aus verschiedenen Google Cloud-Systemen katalogisieren.

Sie können Data Catalog APIs auch für die Einbindung in benutzerdefinierte Datenquellen verwenden.

Nachdem Ihre Daten katalogisiert wurden, können Sie diesen Assets mithilfe von Tags eigene Metadaten hinzufügen.

Data Catalog erkennt Metadaten aus Google Cloud-Daten
  wie BigQuery, Pub/Sub,
  Dataproc Metastore und Cloud Storage sowie
  nicht-Cloud-Datenquellen
wie Hive und Oracle.
Abbildung 1. Data Catalog liest Metadaten aus Google Cloud-Diensten und benutzerdefinierte Datenquellen erstellen.

Data Catalog-Metadaten

Data Catalog verarbeitet zwei Arten von Metadaten: technische Metadaten und Geschäftsmetadaten. Weitere Informationen zu Metadaten finden Sie unter Data Catalog-Metadaten.

Daten suchen und ermitteln

Data Catalog bietet eine leistungsfähige prädikatbasierte Suche für technische und geschäftliche Metadaten, die mit einem Dateneintrag verknüpft sind. Ich zum Lesen der Metadaten für einen Dateneintrag die Suche und Auffindbarkeit auf die Metadaten anwenden. Data Catalog nicht Indexieren der Daten innerhalb eines Dateneintrags. Der Data Catalog indiziert nur die Metadaten, die ein Asset beschreiben.

Data Catalog steuert einige Metadaten, z. B. nutzergenerierte Tags. Für alle Metadaten, die aus dem zugrunde liegenden Speichersystem bezogen werden, Data Catalog ist ein schreibgeschützter Dienst, der die Metadaten widerspiegelt und Berechtigungen, die vom zugrunde liegenden Speichersystem bereitgestellt werden. Sie können Änderungen vornehmen in das zugrunde liegende Speichersystem, um die Metadaten einer Daten hinzuzufügen, zu aktualisieren oder zu löschen zu erstellen.

Weitere Informationen zur Data Catalog-Suche finden Sie unter Mit Data Catalog nach Daten-Assets suchen

Automatische Katalogisierung von Assets

Für ein bestimmtes Projekt katalogisiert Data Catalog automatisch die folgenden Google Cloud-Assets:

  • Mit Analytics Hub verknüpfte Datensätze
  • BigQuery-Datasets, -Tabellen, -Modelle, -Routinen und -Verbindungen
  • Bigtable-Instanzen, -Cluster und -Tabellen (einschließlich Details zu Spaltenfamilien)
  • Dataplex-Lakes, -Zonen, -Tabellen und -Datensätze
  • Dataproc Metastore-Dienste, -Datenbanken und -Tabellen
  • Pub/Sub-Themen
  • Spanner-Instanzen, -Datenbanken, -Tabellen und -Ansichten
  • Vertex AI-Modelle Datasets und Vertex AI Feature Store-Ressourcen

Neben der Katalogisierung von Assets in den Projekt-IDs, auf deren Metadaten Sie zugreifen können, kann Data Catalog auch Daten katalogisieren, die in den BigQuery-Projekten mit öffentlichen Datasets gespeichert sind.

Nicht-Google Cloud-Assets katalogisieren

Zum Katalogisieren von Metadaten aus Nicht-Google Cloud-Systemen in Ihrer Organisation können Sie die Folgendes:

Auf Data Catalog zugreifen

Auf Data Catalog-Funktionen können Sie über Folgendes zugreifen:

Nächste Schritte