Mit Data Catalog arbeiten

Data Catalog ist ein Feature von Dataplex, das in BigQuery eingebunden wird. Es katalogisiert automatisch Metadaten zu BigQuery-Ressourcen wie Tabellen, Datasets, Ansichten und Modellen. In diesem Dokument wird beschrieben, wie Sie in diesen Ressourcen suchen, die Datenherkunft ansehen und Tags mithilfe von Data Catalog hinzufügen.

Nach BigQuery-Ressourcen suchen

So suchen Sie mit Data Catalog nach BigQuery-Datasets, -Tabellen und -Markierungen:

  1. Rufen Sie in der Google Cloud Console die Seite der Dataplex-Suche auf.

    Zur Suche

  2. Geben Sie in das Feld Suche eine Suchanfrage ein und klicken Sie auf Suchen.

    Mit der Data Catalog-Suche können Sie Daten in Ihren Projekten und Organisationen finden.

    Verwenden Sie zum Verfeinern der Suchparameter den Bereich Filter. Klicken Sie beispielsweise im Abschnitt Systeme das Kästchen BigQuery an. Die Ergebnisse werden nach BigQuery-Systemen gefiltert.

Sie können einfache Suchanfragen in Data Catalog über die Google Cloud Console ausführen. Weitere Informationen zur Suche in der Google Cloud Console finden Sie unter Öffentliches Dataset öffnen.

Data Lineage

Die Datenherkunft ist ein Dataplex-Feature, mit dem Sie verfolgen können, wie Daten sich durch Ihre Systeme bewegen: woher die Daten stammen, wohin sie übertragen werden und welche Transformationen auf sie angewendet werden. Sie können direkt über BigQuery auf das Data-Lineage-Feature zugreifen.

Wenn Sie die Herkunft der Daten in Ihrem BigQuery-Projekt aktivieren, zeichnet Dataplex automatisch die Herkunftsinformationen für Tabellen auf, die von den folgenden Vorgängen erstellt wurden:

Vorbereitung

In diesem Abschnitt aktivieren Sie die Data Lineage API und weisen die IAM-Rollen (Identity and Access Management) zu, die Nutzern die erforderlichen Berechtigungen zum Ausführen der einzelnen Aufgaben in diesem Dokument geben.

Datenherkunft aktivieren

  1. Wählen Sie in der Google Cloud Console auf der Projektauswahlseite das Projekt aus, das die Ressourcen enthält, deren Herkunft verfolgen möchten.

    Zur Projektauswahl

  2. Aktivieren Sie die Data Lineage API und die Data Catalog APIs.

    APIs aktivieren

Erforderliche IAM-Rollen

Informationen zur Herkunft werden automatisch verfolgt, wenn Sie die Data Lineage API aktivieren.

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Diagrammen zur Herkunftsvisualisierung benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Weitere Informationen finden Sie unter Data Lineage-Rollen.

Herkunftsdiagramme in BigQuery ansehen

So rufen Sie das Diagramm zur Herkunftsvisualisierung der Daten in BigQuery auf:

  1. Öffnen Sie in der Google Cloud Console die Seite BigQuery.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt und das Dataset und wählen Sie dann eine Tabelle aus.

  3. Klicken Sie auf den Tab Lineage.

    Tab „Datenherkunft“.

    Das Visualisierungsdiagramm für die Datenherkunft wird angezeigt.

    Datenherkunftsdiagramm

  4. Optional: Wählen Sie einen Knoten aus, um weitere Details zu den Entitäten oder Prozessen anzuzeigen, die am Erstellen von Herkunftsinformationen beteiligt sind.

Weitere Informationen zur Datenherkunft finden Sie unter Informationen zur Herkunft von Daten.

Tags und Tag-Vorlagen

Mit Tags können Organisationen Metadaten für alle Dateneinträge in einem einheitlichen Dienst erstellen, suchen und verwalten.

In diesem Abschnitt werden zwei wichtige Data Catalog-Konzepte erläutert:

  • Mit Tags können Sie durch Anhängen benutzerdefinierter Metadatenfelder einen Kontext für einen Dateneintrag bereitstellen.

  • Tag-Vorlagen sind wiederverwendbare Strukturen, mit denen Sie schnell neue Tags erstellen können.

Tags

Data Catalog bietet zwei Arten von Tags: private Tags und öffentliche Tags.

Private Tags

Private Tags stellen strenge Zugriffskontrollen bereit. Sie können die Tags und die zugehörigen Dateneinträge nur suchen oder ansehen, wenn Ihnen die erforderlichen Leseberechtigungen sowohl für die private Tag-Vorlage als auch die Dateneinträge gewährt wurden.

Für die Suche nach privaten Tags auf der Data Catalog-Seite müssen Sie die Suchsyntax tag: oder die Suchfilter verwenden.

Private Tags sind für Szenarien geeignet, bei denen Sie vertrauliche Informationen im Tag speichern müssen und daher neben der Prüfung, ob Nutzer zum Ansehen eines getaggten Eintrags berechtigt sind, zusätzliche Zugriffsbeschränkungen nutzen möchten.

Öffentliche Tags

Öffentliche Tags bieten im Vergleich zu privaten Tags eine weniger strenge Zugriffssteuerung für das Suchen und Aufrufen des Tags. Jeder Nutzer, der über die erforderlichen Leseberechtigungen für einen Dateneintrag verfügt, kann alle zugehörigen öffentlichen Tags ansehen. Anzeigeberechtigungen für öffentliche Tags sind nur erforderlich, wenn Sie eine Suche in Data Catalog mit der tag:-Syntax ausführen oder wenn Sie eine nicht angehängte Tag-Vorlage anzeigen.

Öffentliche Tags unterstützen sowohl die einfache Suche als auch die Suche mit Prädikaten auf der Data Catalog-Suchseite. Wenn Sie eine Tag-Vorlage erstellen, ist die Option zum Erstellen einer öffentlichen Tag-Vorlage die standardmäßige und empfohlene Option in der Google Cloud Console.

Angenommen, Sie haben eine öffentliche Tag-Vorlage namens employee data, mit der Sie Tags für drei Dateneinträge mit den Namen Name, Location und Salary erstellt haben. Von den drei Dateneinträgen können nur Mitglieder einer bestimmten Gruppe namens HR den Dateneintrag Salary sehen. Die anderen beiden Dateneinträge weisen Leseberechtigungen für alle Mitarbeiter des Unternehmens auf.

Wenn ein Mitarbeiter kein Mitglied der HR-Gruppe ist, die Data Catalog-Suchseite verwendet und mit dem Wort employee sucht, zeigt das Suchergebnis nur die Dateneinträge Name und Location mit den zugehörigen öffentlichen Tags an.

Öffentliche Tags sind für eine Vielzahl von Szenarien nützlich. Öffentliche Tags unterstützen die einfache Suche und die Suche mit Prädikaten, während private Tags nur die Suche mit Prädikaten unterstützen.

Tag-Vorlagen

Um mit dem Taggen von Metadaten zu beginnen, müssen Sie zuerst mindestens eine Tag-Vorlage erstellen. Eine Tag-Vorlage kann eine öffentliche oder private Tag-Vorlage sein. Wenn Sie eine Tag-Vorlage erstellen, ist die Option zum Erstellen einer öffentlichen Tag-Vorlage in der Google Cloud Console die standardmäßige und empfohlene Option. Eine Tag-Vorlage ist eine Gruppe an Schlüssel/Wert-Paaren in Form von Metadaten, die Felder genannt werden. Ein Satz Vorlagen ist mit einem Datenbankschema für Ihre Metadaten vergleichbar.

Sie können Ihre Tags nach Themen strukturieren. Beispiel:

  • Ein data governance-Tag mit Feldern für Data Governor, Aufbewahrungsdatum, Löschdatum, personenidentifizierbare Informationen (Ja oder Nein), Datenklassifizierung (öffentlich, vertraulich, gesetzliche Vorschriften)
  • Ein data quality-Tag mit Feldern für Qualitätsprobleme, Aktualisierungshäufigkeit und SLO-Informationen
  • Ein data usage-Tag mit Feldern für häufigste Nutzer, häufigste Abfragen und durchschnittliche tägliche Nutzer

Sie können dann Tags miteinander mischen und so kombinieren, dass nur die Tags verwendet werden, die für jedes Daten-Asset und Ihre Geschäftsanforderungen relevant sind.

Zum Einstieg enthält Data Catalog eine Galerie von Beispiel-Tag-Vorlagen, um gängige Tag-Anwendungsfälle zu veranschaulichen. Anhand dieser Beispiele erfahren Sie mehr über die Möglichkeiten von Tagging, als Inspiration oder als Ausgangspunkt für die Erstellung einer eigenen Tagging-Infrastruktur.

Führen Sie die folgenden Schritte aus, um eine Tag-Vorlagen-Gallerie zu verwenden:

  1. Rufen Sie in der Google Cloud Console die Seite Tag-Vorlagen von Dataplex auf.

    Zu den Tag-Vorlagen

  2. Klicken Sie auf Tag-Vorlage erstellen.

    Die Instanzvorlagen werden als Teil der Seite Vorlage erstellen angezeigt.

Nachdem Sie eine Vorlage aus der Galerie ausgewählt haben, können Sie sie wie jede andere Tag-Vorlage verwenden. Außerdem haben Sie die Möglichkeit, Attribute hinzuzufügen oder zu löschen und können die Vorlage ganz nach Ihren geschäftlichen Anforderungen ändern. Anschließend können Sie mit Data Catalog nach den Vorlagenfeldern und -werten suchen.

Weitere Informationen zu Tags und Tag-Vorlagen finden Sie unter Tags und Tag-Vorlagen.

Regionale Ressourcen

Alle Tag-Vorlagen und Tags werden in einer bestimmten Google Cloud-Region gespeichert. Mit Tag-Vorlagen können Sie Tags in beliebigen Regionen erstellen. Sie müssen also keine Kopien Ihrer Vorlage erstellen, wenn Sie Metadateneinträge über mehrere Regionen verteilt haben.