Was ist Data Catalog?

Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung in der Data Analytics-Produktfamilie von Google Cloud.

Warum benötigen Sie Data Catalog?

Die meisten Organisationen haben heute eine große und wachsende Anzahl von Datenassets.

Stakeholder (Verbraucher, Produzenten und Administratoren) in einem Unternehmen sind mit mehreren Herausforderungen konfrontiert:

  • Aufschlussreiche Daten suchen:

    • Datennutzer kennen den Standort und die Herkunft von Daten nicht. Sie müssen Daten und Aufhängen kontrollieren.
    • Datennutzer wissen nicht, welche Daten sie gewinnen sollen, da die meisten Daten nicht gut dokumentiert sind und auch bei Dokumentation nicht gut verwaltet werden.
    • Daten können nicht gefunden und gehen oft verloren, wenn sie sich nur im Kopf befinden.
  • Informationen zu Daten:

    • Sind die Daten aktuell, sauber, validiert und für die Produktion genehmigt?
    • Welcher Datensatz aus mehreren doppelten Sätzen ist relevant und auf dem neuesten Stand?
    • Wie hängt ein Datensatz mit einem anderen zusammen?
    • Wer verwendet die Daten und wer ist der Inhaber?
    • Wer und welche Prozesse transformieren die Daten?
  • Daten nutzbar machen:

    • Datenersteller haben keine effiziente Möglichkeit, Daten für Nutzer voranzubringen. Gibt es keinen Self-Service, können Nutzer den Ersteller überfordern. Mehrere Data Engineers können Daten nicht Tausenden von Datenanalysten manuell zur Verfügung stellen.

    • Wertvolle Zeit geht verloren, wenn Datennutzer herausfinden müssen, wie sie Datenzugriff anfordern, ihn beantragen, ohne definierte Antwortzeit warten, eskalieren und noch einmal warten.

Ohne die richtigen Tools werden die Herausforderungen zu einem wichtigen Hindernis für die effiziente Nutzung von Daten. Data Catalog bietet einen zentralen Ort, an dem Organisationen Folgendes erreichen können:

  • Verschaffen Sie sich eine einheitliche Ansicht, um die Suche nach den richtigen Daten zu reduzieren.
  • Wenn Sie Ihre Daten mit technischen und geschäftlichen Metadaten anreichern, können Sie datengestützte Entscheidungen treffen und Informationen schneller gewinnen.
  • Verbessern Sie die Datenverwaltung, um die betriebliche Effizienz und Produktivität zu erhöhen.
  • Übernehmen Sie die Inhaberschaft für die Daten, um das Vertrauen in sie zu erhöhen.

Data Catalog-Funktionen

Data Catalog bietet zwei Hauptfunktionen:

  • Nach Dateneinträgen suchen, auf die Sie Zugriff haben
  • Dateneinträge mit Metadaten taggen

Darüber hinaus kann Data Catalog die Ergebnisse eines Scans von Cloud Data Loss Prevention (DLP) nutzen, um sensible Daten direkt in Data Catalog in Form von Tag-Vorlagen zu identifizieren.

So funktioniert der Data Catalog

Mit Data Catalog können Sie die Metadaten von Dateneinträgen aus verschiedenen Google Cloud-Systemquellen katalogisieren.

Mit Data Catalog APIs können Sie auch Einträge für benutzerdefinierte Datenressourcentypen erstellen und verwalten.

Nachdem Ihre Daten katalogisiert wurden, können Sie diese Assets mithilfe von Tags Ihren eigenen Metadaten hinzufügen.

Data Catalog katalogisiert Dateneinträge aus Pub/Sub, BigQuery, Dataplex, Dataproc Metastore und Cloud Storage.

Abbildung 1. Architektur von Data Catalog

Data Catalog-Metadaten

Der Data Catalog verarbeitet zwei Arten von Metadaten: technische Metadaten und Geschäftsmetadaten. Weitere Informationen zu Metadaten finden Sie unter Data Catalog-Metadaten.

Daten suchen und ermitteln

Data Catalog bietet eine einfache, aber leistungsstarke prädikatsbasierte Suche für technische und geschäftliche Metadaten, die mit einem Dateneintrag verknüpft sind. Sie benötigen die Berechtigung zum Lesen der Metadaten für einen Dateneintrag, damit Sie die Suche und Auffindbarkeit auf die Metadaten anwenden können. Die Daten in einem Dateneintrag werden von Data Catalog nicht indexiert. In Data Catalog werden nur die Metadaten indexiert, die ein Asset beschreiben.

Data Catalog steuert einige Metadaten, z. B. von Nutzern erstellte Tags. Für alle Metadaten, die aus dem zugrunde liegenden Speichersystem stammen, ist Data Catalog ein schreibgeschützter Dienst, der die Metadaten und Berechtigungen des zugrunde liegenden Speichersystems widerspiegelt. Sie können im zugrunde liegenden Speichersystem Änderungen vornehmen, um die Metadaten eines Dateneintrags hinzuzufügen, zu aktualisieren oder zu löschen.

Weitere Informationen zur Data Catalog-Suche finden Sie unter Mit Data Catalog nach Daten-Assets suchen.

Automatischer Katalog von Assets

Für ein bestimmtes Projekt katalogisiert Data Catalog automatisch die folgenden Google Cloud-Assets:

  • BigQuery-Datasets, -Tabellen, -Ansichten.
  • Pub/Sub-Themen
  • Dataplex-Lakes, -Zonen, -Tabellen und -Dateisätze.
  • (Öffentliche Vorschau): Dataproc Metastore-Dienste, Datenbanken und Tabellen.
  • (Öffentliche Vorschau): verknüpfte Analytics Hub-Datasets

Mit Data Catalog können Sie nicht nur Assets in den Projekt-IDs katalogisieren, für die Sie Zugriff auf Metadaten haben, sondern auch Daten, die in BigQuery-Projekten mit öffentlichen Datasets gespeichert sind.

Katalog-Assets, die nicht von der GCP stammen

Zum Katalogisieren von Metadaten aus Nicht-GCP-Systemen in Ihrer Organisation können Sie Folgendes verwenden:

Auf Data Catalog zugreifen

Sie haben folgende Möglichkeiten, auf Data Catalog zuzugreifen:

Weitere Informationen