Was ist Data Catalog?

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung in der Data Analytics-Produktfamilie von Google Cloud.

Warum benötige ich einen Data Catalog?

Die meisten Organisationen haben es derzeit mit einer großen und wachsenden Anzahl von Datenassets zu tun.

Für Datenbeteiligte (Verbraucher, Ersteller und Administratoren) innerhalb einer Organisation gibt es eine Reihe von Herausforderungen:

  • Aufschlussreiche Daten suchen:

    • Datennutzer wissen nicht, wo sich die Daten befinden. Die Daten müssen sich in den Sümpfen zurechtfinden, die sie vielleicht entdecken.
    • Datennutzer wissen nicht, welche Daten zum Abrufen von Daten verwendet werden sollen, da die meisten Daten nicht gut dokumentiert sind und auch bei Dokumentation nicht gut verwaltet werden.
    • Daten können nicht gefunden werden und gehen häufig verloren, wenn sie nur im Kopf von Menschen bleiben.
  • Informationen zu Daten:

    • Sind die Daten aktuell, bereinigt, validiert und für die Produktion freigegeben?
    • Welcher Datensatz aus mehreren doppelten Datensätzen ist relevant und aktuell?
    • Welcher Zusammenhang besteht zwischen einem Datenpool?
    • Wer verwendet die Daten und wer ist der Inhaber?
    • Wer und welche Prozesse transformieren die Daten?
  • So werden Daten nützlich:

    • Datenersteller haben keine effiziente Möglichkeit, ihre Daten für Verbraucher bereitzustellen. Gibt es keinen Self-Service, können Verbraucher den Hersteller möglicherweise überfordern. Mehrere Data Engineers können Tausenden von Datenanalysten keine Daten manuell zur Verfügung stellen.

    • Wertvolle Zeit geht verloren, wenn Datennutzer herausfinden müssen, wie sie den Datenzugriff anfordern, anfordern, ohne eine definierte Antwortzeit warten, eskalieren und dann noch einmal warten.

Ohne die richtigen Tools werden die oben genannten Herausforderungen zu einem großen Hindernis bei der effizienten Datennutzung. Data Catalog bietet einen zentralen Ort, der Organisationen Folgendes ermöglicht:

  • Sie erhalten eine einheitliche Ansicht, um die Suche nach den richtigen Daten zu vereinfachen.
  • Daten mit technischen und geschäftlichen Metadaten anreichern, um datengestützte Entscheidungen zu treffen und die Informationsgewinnung zu beschleunigen.
  • Verbessern Sie die Datenverwaltung, um die betriebliche Effizienz und Produktivität zu steigern.
  • Übernimm die Inhaberschaft der Daten, um das Vertrauen in sie zu stärken.

Data Catalog verwenden

Es gibt zwei Möglichkeiten, wie Sie mit dem Data Catalog interagieren:

Darüber hinaus kann Data Catalog die Ergebnisse eines Cloud Data Loss Prevention-Scans verwenden, um sensible Daten direkt in Data Catalog in Form von Tag-Vorlagen zu identifizieren.

So funktioniert der Data Catalog

Data Catalog kann die nativen Metadaten für Datenressourcen aus den folgenden Google Cloud-Systemquellen katalogisieren:

  • BigQuery-Datasets, -Tabellen und -Ansichten
  • Pub/Sub-Themen
  • Dataproc Metastore-Dienste, -Datenbanken und -Tabellen

Mit Data Catalog APIs können Sie auch Einträge für benutzerdefinierte Datenressourcentypen erstellen und verwalten.

Nach der Katalogisierung Ihrer Daten können Sie diesen Assets mithilfe von Tags eigene Metadaten hinzufügen.

Technische und geschäftliche Metadaten

Der Data Catalog verarbeitet zwei Arten von Metadaten: technische Metadaten und Geschäftsmetadaten. Um den Unterschied zu verstehen, sehen Sie den Data Catalog-Beispieleintrag unten:

  • Technische Metadaten: Diese werden oben unter BigQuery-Tabellendetails angezeigt und stammen vom zugrunde liegenden Speichersystem, in dem sich das Daten-Asset befindet. Sie umfassen:

    • Projektinformationen wie Name und ID
    • Name und Beschreibung des Assets
    • Google Cloud-Ressourcenlabels
    • Schemaname und Beschreibung für BigQuery-Tabellen und -Ansichten
  • Geschäftsmetadaten: Diese werden oben unter Tags (1) angezeigt und sind von Nutzern erstellte Metadaten, die mithilfe von Data Catalog-Tags auf den Inhalt angewendet werden. Geschäftsmetadaten sind immer mit einem technischen Metadateneintrag verknüpft.

Daten suchen und ermitteln

Der Data Catalog bietet leistungsstarke, strukturierte Suchfunktionen und prädikatenbasierte Filterung sowohl der technischen als auch der geschäftlichen Metadaten für ein Datenasset. Sie müssen in der Lage sein, die Metadaten für ein Datenasset zu lesen, um es suchen und erkennen zu können. Der Data Catalog indiziert die Daten innerhalb eines Datenassets nicht. Der Data Catalog indiziert die Metadaten, die ein Asset beschreiben.

Data Catalog steuert einige Metadaten, z. B. nutzergenerierte Tags. Für alle Metadaten aus dem zugrunde liegenden Speichersystem nimmt Data Catalog jedoch nur Lesezugriffe vor und spiegelt die Metadaten und Berechtigungen des zugrunde liegenden Speichersystems wider. Änderungen an den nativen Metadaten eines Assets, z. B. das Hinzufügen, Entfernen oder Aktualisieren, können im zugrunde liegenden Speichersystem vorgenommen werden.

Data Catalog katalogisiert für ein bestimmtes Projekt automatisch die folgenden Google Cloud-Assets:

  • BigQuery-Datasets, -Tabellen, -Ansichten
  • Pub/Sub-Themen
  • (Vorschau) Dataproc Metastore-Dienste, -Datenbanken und -Tabellen

Neben der Katalogisierung von Assets in den Projekt-IDs, auf deren Metadaten Sie zugreifen können, kann Data Catalog auch Daten katalogisieren, die in den BigQuery-Projekten mit öffentlichen Datasets gespeichert sind.

Zum Katalogisieren von Metadaten aus Nicht-GCP-Systemen in Ihrer Organisation können Sie Folgendes verwenden:

Tags

Das Dokumentieren von Datenassets in großem Umfang ist schwierig, insbesondere wenn die Daten von verschiedenen Gruppen innerhalb einer Organisation verwendet werden. Jede Gruppe hat möglicherweise ihre eigene Dokumentation zur Beschreibung von Datenassets. Mit Data Catalog-Tagvorlagen können Sie allgemeine Metadaten zu Datenassets an einem einzigen Ort erstellen und verwalten. Die Tags werden an das Daten-Asset angehängt, sodass es im Data Catalog-System erkannt werden kann. Mit dieser Funktion können Sie auch zusätzliche Anwendungen erstellen, die diese kontextbezogenen Metadaten zu einem Datenasset verwenden und weitere Aktionen ausführen.

So interagieren Sie mit dem Data Catalog

Sie können Data Catalog mit der Cloud Console , der gcloud- Befehlszeilenschnittstelle und den Data Catalog APIs aufrufen, oder indem Sie über die Cloud-Clientbibliotheken Aufrufe an die API senden.

Nächste Schritte