Data Catalog – Übersicht

Das Data Catalog-Feature von Dataplex ist ein zentrales Inventar der Daten-Assets einer Organisation. Data Catalog automatisch katalogisiert Metadaten aus Google Cloud-Quellen wie BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable und vieles mehr. Data Catalog indexiert auch Metadaten von Tabellen und Dateisätzen in Cloud Storage über die Erkennung.

Sie können Daten mit der organisationsweiten Version von Dataplex Metadaten-Suchfunktion. Sie können Metadaten mit wichtigen Unternehmenskontexte zu aktivieren und Lineage-Tracking, Datenprofilerstellung, Datenqualität und Zugriffssteuerungsfunktionen.

Mit Data Catalog können Organisationen bessere Daten erhalten Discovery, Metadatenverwaltung und Governance.

Wozu benötigen Sie Data Catalog?

Die meisten Organisationen haben heute eine große und wachsende Anzahl von Datenassets.

Daten-Stakeholder (Verbraucher, Produzenten und Administratoren) innerhalb eines Unternehmen stehen vor mehreren Herausforderungen:

  • Aufschlussreiche Daten suchen:

    • Datennutzer kennen den Ort und die Herkunft der Daten nicht. Sie müssen „Sümpfe“ navigieren können.
    • Datennutzer wissen nicht, welche Daten sie gewinnen sollen, da die meisten Daten nicht gut dokumentiert sind und auch bei Dokumentation nicht gut verwaltet werden.
    • Daten können nicht gefunden und gehen oft verloren, wenn sie sich nur im Kopf befinden.
  • Informationen zu Daten:

    • Sind die Daten aktuell, sauber, validiert und für die Produktion genehmigt?
    • Welches aus mehreren doppelten Sets ist relevant und aktuell?
    • In welcher Beziehung steht ein Dataset zu einem anderen?
    • Wer verwendet die Daten und wer ist der Inhaber?
    • Wer und welche Prozesse transformieren die Daten?
  • Daten nutzbar machen:

    • Datenersteller haben keine effiziente Möglichkeit, Daten für Nutzer voranzubringen. Gibt es keinen Self-Service, können Nutzer den Ersteller überfordern. Mehrere Data Engineers können Daten nicht Tausenden von Datenanalysten manuell zur Verfügung stellen.

    • Wertvolle Zeit geht verloren, wenn Datennutzer herausfinden müssen, wie sie sie anfordern können. Datenzugriff, ohne festgelegte Antwortzeit warten, eskalieren und noch einmal warten.

Ohne die richtigen Tools werden die Herausforderungen zu einem großen Hindernis zur effizienten Nutzung von Daten. Data Catalog bietet eine zentrale Repository, mit dem Organisationen Folgendes erreichen können:

  • Verschaffen Sie sich eine einheitliche Ansicht, um die Suche nach den richtigen Daten zu reduzieren.
  • Unterstützen Sie die datengestützte Entscheidungsfindung und beschleunigen Sie die Erkenntnisgewinnung, indem Sie Daten mit technischen und geschäftlichen Metadaten anreichern.
  • Verbessern Sie die Datenverwaltung, um die betriebliche Effizienz und Produktivität zu erhöhen.
  • Übernehmen Sie die Inhaberschaft für die Daten, um das Vertrauen in sie zu erhöhen.

Data Catalog-Funktionen

Data Catalog bietet drei Hauptfunktionen:

  • Es wird nach Dateneinträgen gesucht, auf die Sie Zugriff haben
  • Dateneinträge mit Metadaten taggen
  • Sicherheit auf Spaltenebene für BigQuery-Tabellen

Darüber hinaus kann Data Catalog auf den Ergebnissen eines Sensitive Data Protection-Scan zum Identifizieren sensibler Daten Daten direkt in Data Catalog in Form von Tag-Vorlagen.

So funktioniert der Data Catalog

Data Catalog kann Asset-Metadaten aus verschiedenen Google Cloud-Systemen katalogisieren.

Sie können Data Catalog APIs auch zur Einbindung in benutzerdefinierte Datenquellen verwenden.

Nachdem Ihre Daten katalogisiert wurden, können Sie diesen Assets mithilfe von Tags eigene Metadaten hinzufügen.

Data Catalog erkennt Metadaten aus Google Cloud-Daten
  wie BigQuery, Pub/Sub,
  Dataproc Metastore und Cloud Storage sowie
  nicht-Cloud-Datenquellen
wie Hive und Oracle.
Abbildung 1. Data Catalog liest Metadaten aus Google Cloud-Diensten und benutzerdefinierte Datenquellen erstellen.

Data Catalog-Metadaten

Data Catalog verarbeitet zwei Arten von Metadaten: technische Metadaten und Geschäftsmetadaten. Weitere Informationen zu Metadaten finden Sie unter Data Catalog-Metadaten.

Daten suchen und ermitteln

Data Catalog bietet eine leistungsstarke prädikatsbasierte Suche Erfahrung mit technischen und geschäftlichen Metadaten im Zusammenhang mit einer Dateneingabe. Ich zum Lesen der Metadaten für einen Dateneintrag die Suche und Auffindbarkeit auf die Metadaten anwenden. Data Catalog nicht Indexieren der Daten innerhalb eines Dateneintrags. Data Catalog indexiert nur die Metadaten, die einen Inhalt beschreiben.

Data Catalog steuert einige Metadaten, z. B. nutzergenerierte Tags. Für alle Metadaten, die aus dem zugrunde liegenden Speichersystem bezogen werden, Data Catalog ist ein schreibgeschützter Dienst, der die Metadaten widerspiegelt und Berechtigungen, die vom zugrunde liegenden Speichersystem bereitgestellt werden. Sie können Änderungen vornehmen in das zugrunde liegende Speichersystem, um die Metadaten einer Daten hinzuzufügen, zu aktualisieren oder zu löschen zu erstellen.

Weitere Informationen zur Data Catalog-Suche finden Sie unter Mit Data Catalog nach Daten-Assets suchen

Automatische Katalogisierung von Assets

Für ein bestimmtes Projekt katalogisiert Data Catalog automatisch die folgenden Google Cloud-Assets:

  • Mit Analytics Hub verknüpfte Datasets
  • BigQuery-Datasets, -Tabellen, -Modelle, -Routinen und -Verbindungen
  • Bigtable-Instanzen, -Cluster und -Tabellen (einschließlich Details zu Spaltenfamilien)
  • Dataplex-Lakes, Zonen, Tabellen und Dateisätze
  • Dataproc Metastore-Dienste, -Datenbanken und -Tabellen
  • Pub/Sub-Themen
  • Spanner-Instanzen, -Datenbanken, -Tabellen und -Ansichten
  • Vertex AI-Modelle Datasets und Vertex AI Feature Store-Ressourcen

Neben der Katalogisierung von Assets innerhalb der Projekt-IDs, auf die Sie Zugriff auf Metadaten haben, kann Data Catalog Daten katalogisieren, die in den BigQuery-Projekten gespeichert sind. die öffentliche Datasets enthalten.

Nicht-Google Cloud-Assets katalogisieren

Zum Katalogisieren von Metadaten aus Nicht-Google Cloud-Systemen in Ihrer Organisation können Sie die Folgendes:

Auf Data Catalog zugreifen

Auf Data Catalog-Funktionen können Sie über Folgendes zugreifen:

Nächste Schritte