Data Catalog – Übersicht

Das Verwalten von Datenassets kann ohne die richtigen Tools zeitaufwändig und teuer sein. Data Catalog bietet einen zentralen Ort, an dem Organisationen ihre Daten-Assets finden, kuratieren und beschreiben können.

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung in der Data Analytics-Produktfamilie von Google Cloud.

Data Catalog verwenden

Es gibt zwei Möglichkeiten, wie Sie mit dem Data Catalog interagieren:

Darüber hinaus interagiert Data Catalog mit Cloud Data Loss Prevention (DLP), um vertrauliche Daten mithilfe des leistungsstarken automatischen Tag-Mechanismus von Cloud Data Loss Prevention automatisch zu identifizieren.

So funktioniert der Data Catalog

Der Data Catalog kann die nativen Metadaten zu Datenassets aus den folgenden Google Cloud-Speichersystem-quellen katalogisieren:

  • BigQuery-Datasets, -Tabellen und -Ansichten
  • Pub/Sub-Themen

Mit Data Catalog APIs können Sie auch Einträge für benutzerdefinierte Datenressourcentypen erstellen und verwalten.

Nach der Katalogisierung Ihrer Daten können Sie diesen Assets mithilfe von Tags eigene Metadaten hinzufügen.

Technische und geschäftliche Metadaten

Der Data Catalog verarbeitet zwei Arten von Metadaten: technische Metadaten und Geschäftsmetadaten. Um den Unterschied zu verstehen, sehen Sie den Data Catalog-Beispieleintrag unten:

Beispieleintrag für den Data Catalog

  • Technische Metadaten: Diese werden im roten Feld oben angezeigt und stammen aus dem zugrunde liegenden Speichersystem, in dem sich das Datenasset befindet. Dazu gehören:
    • Projektinformationen wie Name und ID
    • Name und Beschreibung des Assets
    • Google Cloud-Ressourcenlabels
    • Schemaname und Beschreibung für BigQuery-Tabellen und -Ansichten
  • Geschäftsmetadaten: Diese werden im blauen Feld oben angezeigt und sind von Nutzern erstellte Metadaten, die mithilfe von Data Catalog-Tags auf den Inhalt angewendet werden. Geschäftsmetadaten sind immer mit einem technischen Metadateneintrag verknüpft.

Daten suchen und ermitteln

Der Data Catalog bietet leistungsstarke, strukturierte Suchfunktionen und prädikatenbasierte Filterung sowohl der technischen als auch der geschäftlichen Metadaten für ein Datenasset. Sie müssen in der Lage sein, die Metadaten für ein Datenasset zu lesen, um es suchen und erkennen zu können. Der Data Catalog indiziert die Daten innerhalb eines Datenassets nicht. Der Data Catalog indiziert die Metadaten, die ein Asset beschreiben.

Data Catalog steuert einige Metadaten, z. B. nutzergenerierte Tags. Für alle Metadaten aus dem zugrunde liegenden Speichersystem nimmt Data Catalog jedoch nur Lesezugriffe vor und spiegelt die Metadaten und Berechtigungen des zugrunde liegenden Speichersystems wider. Änderungen an den nativen Metadaten eines Assets, z. B. das Hinzufügen, Entfernen oder Aktualisieren, können im zugrunde liegenden Speichersystem vorgenommen werden.

Für ein bestimmtes Projekt katalogisiert Data Catalog automatisch alle BigQuery-Datasets, -Tabellen, -Ansichten und externen Tabellen in Cloud Storage, Cloud Bigtable oder Google Tabellen. Der Data Catalog katalogisiert auch automatisch Pub/Sub-Themen aus diesem Projekt.

Neben der Katalogisierung von Assets in den Projekt-IDs, auf deren Metadaten Sie zugreifen können, kann Data Catalog auch Daten katalogisieren, die in den BigQuery-Projekten mit öffentlichen Datasets gespeichert sind.

Tags

Das Dokumentieren von Datenassets in großem Umfang ist schwierig, insbesondere wenn die Daten von verschiedenen Gruppen innerhalb einer Organisation verwendet werden. Jede Gruppe hat möglicherweise ihre eigene Dokumentation zur Beschreibung von Datenassets. Mit Data Catalog-Tagvorlagen können Sie allgemeine Metadaten zu Datenassets an einem einzigen Ort erstellen und verwalten. Die Tags werden an das Daten-Asset angehängt, sodass es im Data Catalog-System erkannt werden kann. Mit dieser Funktion können Sie auch zusätzliche Anwendungen erstellen, die diese kontextbezogenen Metadaten zu einem Datenasset verwenden und weitere Aktionen ausführen.

So interagieren Sie mit dem Data Catalog

Sie können Data Catalog mit der Cloud Console , der gcloud- Befehlszeilenschnittstelle und den Data Catalog APIs aufrufen, oder indem Sie über die Cloud-Clientbibliotheken Aufrufe an die API senden.

Nächste Schritte

  • Informationen zum Einstieg in Cloud Data Catalog finden Sie in der Schnellstartanleitung.
  • Weitere Informationen zur Verwendung der Data Catalog-funktionen finden Sie unter Anleitungen.