Tags und Tag-Vorlagen

Das Dokumentieren von Dateneinträgen in großem Maßstab ist schwierig, insbesondere wenn sie von verschiedenen Gruppen in einer Organisation mit unterschiedlichen Anforderungen verwendet werden. Häufig erstellt jede Gruppe einen eigenen Satz von Dokumentationen und Metadaten, um dieselben Daten zu beschreiben, was zu doppeltem Aufwand und unvollständigen Informationen führt. Data Catalog löst dieses Problem durch Tags, mit denen Organisationen Metadaten für alle ihre Dateneinträge in einem einheitlichen Dienst erstellen, suchen und verwalten können.

In diesem Dokument werden zwei wichtige Konzepte von Data Catalog erläutert:

  • Tags: Benutzerdefinierte Metadatenfelder, die Sie an einen Dateneintrag anhängen können, um Kontext bereitzustellen.

  • Tag-Vorlagen: Wiederverwendbare Strukturen, mit denen Sie schnell neue Tags erstellen können.

Tags

Tags sind eine Art von geschäftlichen Metadaten. Durch das Hinzufügen von Tags zu einem Dateneintrag können Sie allen, die das Asset verwenden müssen, sinnvollen Kontext bereitstellen. Ein Tag kann Ihnen beispielsweise Informationen darüber geben, wer für einen bestimmten Dateneintrag verantwortlich ist, ob er personenidentifizierbare Informationen enthält, die Aufbewahrungsrichtlinie für das Asset und einen Datenqualitätsfaktor.

Tags können öffentliche oder private Tags sein. Jeder Tag-Typ hat einige einzigartige Vorteile, die zu Ihren Geschäftsanforderungen passen.

Private Tags

Private Tags ermöglichen eine strikte Zugriffssteuerung. Sie können die Tags und die mit den Tags verknüpften Dateneinträge nur suchen oder aufrufen, wenn Sie die erforderlichen Leseberechtigungen für die private Tag-Vorlage und die Dateneinträge haben.

Wenn Sie auf der Data Catalog-Seite nach privaten Tags suchen möchten, müssen Sie die Suchsyntax tag: oder die Suchfilter verwenden.

Private Tags eignen sich für Szenarien, in denen Sie vertrauliche Informationen im Tag speichern müssen und zusätzliche Zugriffsbeschränkungen anwenden möchten, um nicht nur zu prüfen, ob der Nutzer die Berechtigungen zum Ansehen des getaggten Eintrags hat.

Öffentliche Tags

Öffentliche Tags bieten im Vergleich zu privaten Tags eine weniger strenge Zugriffssteuerung beim Suchen und Anzeigen des Tags. Jeder Nutzer, der über die erforderlichen Leseberechtigungen für einen Dateneintrag verfügt, kann alle zugehörigen öffentlichen Tags ansehen. Leseberechtigungen für öffentliche Tags sind nur erforderlich, wenn Sie in Data Catalog mit der Syntax tag: eine Suche ausführen oder eine nicht angehängte Tag-Vorlage anzeigen.

Öffentliche Tags unterstützen sowohl die einfache Suche als auch die Suche mit Prädikaten auf der Data Catalog-Suchseite. Wenn Sie eine Tag-Vorlage erstellen, wird die Option zum Erstellen einer öffentlichen Tag-Vorlage standardmäßig und in der Google Cloud Console empfohlen.

Angenommen, Sie haben eine öffentliche Tag-Vorlage namens employee data, mit der Sie Tags für drei Dateneinträge mit den Namen Name, Location und Salary erstellt haben. Unter den drei Dateneinträgen können nur Mitglieder einer bestimmten Gruppe mit dem Namen HR den Dateneintrag Salary sehen. Die anderen beiden Dateneinträge haben Leseberechtigungen für alle Mitarbeiter des Unternehmens.

Wenn ein Mitarbeiter, der kein Mitglied der Gruppe HR ist, die Data Catalog-Suchseite verwendet und nach dem Wort employee sucht, werden im Suchergebnis nur Name- und Location-Dateneinträge mit den zugehörigen öffentlichen Tags angezeigt.

Öffentliche Tags sind für eine Vielzahl von Szenarien nützlich und die Verwendung dieser Tags ist intuitiv. Öffentliche Tags unterstützen die einfache Suche und die Suche mit Prädikaten, während private Tags nur die Suche mit Prädikaten unterstützen.

An einen Dateneintrag angehängte Beispiel-Tags

Das folgende Diagramm zeigt ein Beispiel für eine Kundentabelle cust_tbl, in der mehrere geschäftliche Metadaten-Tags an die Tabelle und die zugehörigen Spalten angehängt sind.

Im Beispiel werden Tabellen-Tags verwendet, um Data Governance, Qualität und Nutzung zu beschreiben, und Spalten-Tags, um personenidentifizierbare Informationen wie SSNs und Kontaktdaten zu kennzeichnen.
Abbildung 1. Data Catalog unterstützt das Tagging auf Tabellen- und Spaltenebene.

Tag-Vorlagen

Um mit dem Taggen von Daten zu beginnen, müssen Sie zuerst eine oder mehrere Tag-Vorlagen erstellen. Eine Tag-Vorlage kann eine öffentliche oder eine private Tag-Vorlage sein. Wenn Sie eine Tag-Vorlage erstellen, ist die Option zum Erstellen einer öffentlichen Tag-Vorlage die standardmäßige und empfohlene Option in der Google Cloud Console. Eine Tag-Vorlage ist eine Gruppe an Schlüssel/Wert-Paaren in Form von Metadaten, die Felder genannt werden. Ein Satz Vorlagen ist mit einem Datenbankschema für Ihre Metadaten vergleichbar.

Sie können Ihre Tags nach Themen strukturieren. Beispiel:

  • Ein Data Governance-Tag mit Feldern für: Data Governor, Aufbewahrungsdatum, Löschdatum, personenidentifizierbare Informationen (Ja oder Nein), Datenklassifizierung (öffentlich, vertraulich, gesetzliche Vorschriften).
  • Ein Datenqualitäts-Tag mit Feldern für: Qualitätsprobleme, Aktualisierungshäufigkeit, SLO-Informationen
  • Ein Datennutzungs-Tag mit Feldern für: Häufigste Nutzer, Häufigste Abfragen, durchschnittliche Anzahl täglicher Nutzer

Sie können dann Tags miteinander mischen und so kombinieren, dass nur die Tags verwendet werden, die für jedes Daten-Asset und Ihre Geschäftsanforderungen relevant sind.

Felder in einem Tag

Tags enthalten ein oder mehrere Felder, in denen Informationen gespeichert werden können. Die Felder in einem Tag werden durch eine Tag-Vorlage definiert und jedes Feld kann zum Speichern eines oder mehrerer Werte verwendet werden. Jedes Tag ist eine Instanz einer Tag-Vorlage, die auf einen gesamten Dateneintrag oder auf bestimmte Tabellen oder Spalten angewendet werden kann. Ein Tag für eine Spalte kann beispielsweise Aufschluss darüber geben, ob diese Spalte personenidentifizierbare Informationen enthält, ob sie veraltet ist oder welche Formel zur Berechnung eines bestimmten Werts verwendet wurde.

Jedes Feld enthält eine ID, einen Anzeigenamen und einen Typ. Der Typ kann string, double, boolean, enum (Aufzählung) oder datetime sein. Wenn der Typ enum ist, speichert die Vorlage auch die zulässigen Werte für das Feld.

Felder werden in der Vorlage als geordneter Satz gespeichert, wobei die Reihenfolge die relative Wichtigkeit eines Felds im Verhältnis zu den anderen Feldern bedeutet.

Felder sind optional, sofern nicht als erforderlich gekennzeichnet. Ein Pflichtfeld muss einen Wert erhalten, wenn die Vorlage verwendet wird, während ein optionales Feld leer bleiben kann.

Sie können ein optionales Feld nach dem Erstellen Ihrer Vorlage nicht in ein Pflichtfeld ändern.

Beispielfelder in einem Tag

Hier ist eine Beispiel-Tag-Vorlage aus der quickstart, die mehrere Feldtypen enthält:

In der Beispiel-Tag-Vorlage werden Felder für die Datenquelle, die Anzahl der Zeilen, das Vorhandensein von personenidentifizierbaren Informationen und der Typ der personenidentifizierbaren Informationen definiert.
Abbildung 2. Eine Data Catalog-Tag-Vorlage.

Hier sehen Sie ein aus der Vorlage erstelltes Tag, wobei für jedes Feld Werte angegeben sind:

Das Beispiel-Tag gibt an, dass die Daten aus einer benannten Tabelle stammen, mehrere hundert Millionen Zeilen haben und keine personenidentifizierbaren Informationen enthalten.
Abbildung 3: Ein aus einer Tag-Vorlage erstelltes Tag.

Zum Einstieg enthält Data Catalog eine Galerie von Beispiel-Tag-Vorlagen, um gängige Tag-Anwendungsfälle zu veranschaulichen. Anhand dieser Beispiele erfahren Sie mehr über die Möglichkeiten von Tagging, als Inspiration oder als Ausgangspunkt für die Erstellung einer eigenen Tagging-Infrastruktur.

Führen Sie die folgenden Schritte aus, um eine Tag-Vorlagen-Galerie zu verwenden:

  1. Rufen Sie in der Google Cloud Console die Dataplex-Seite Tag-Vorlagen auf.

    Tag-Vorlagen aufrufen

  2. Klicken Sie auf Tag-Vorlage erstellen.

    Die Vorlagengalerie wird als Teil der Seite Vorlage erstellen angezeigt.

Nachdem Sie eine Vorlage aus der Galerie ausgewählt haben, können Sie sie wie jede andere Tag-Vorlage verwenden. Außerdem haben Sie die Möglichkeit, Attribute hinzuzufügen und zu löschen und können die Vorlage ganz nach Ihren geschäftlichen Anforderungen ändern. Anschließend können Sie mit Data Catalog nach den Vorlagenfeldern und -werten suchen.

Zugriffssteuerung für Tags

Tags und deren Metadaten können vertrauliche Informationen enthalten. Manche Data Governance-Teams möchten vielleicht bestimmte Tags nur für ausgewählte Nutzergruppen sichtbar machen. Data Catalog bietet eine Zugriffssteuerung für Tag-Vorlagen. Diese Einstellungen gelten für alle Tags, die mit dieser Vorlage erstellt wurden.

Sie können Tag-Vorlagen mit vielen Konfigurationen für die Zugriffssteuerung einrichten, z. B.:

  • Eine Tag-Vorlage, mit der nur der Vorlagenersteller Tags erstellen kann
  • Eine Tag-Vorlage, mit der Tags erstellt werden, die nur für eine ausgewählte Gruppe von Nutzern sichtbar sind
  • Eine Tag-Vorlage, mit der ausgewählte Nutzer Tags erstellen können, die nur für eine andere (möglicherweise identische) Gruppe von Nutzern sichtbar sind
  • Eine Tag-Vorlage, die für alle Nutzer einer Organisation oder eines Projekts sichtbar ist (öffentliches Tag)

Der Zugriff auf eine Tag-Vorlage wird mit IAM-Rollen gewährt oder verweigert. Sie gewähren Berechtigungen zum Erstellen, Bearbeiten und Verwenden der Tag-Vorlage. Im Folgenden sind einige verfügbare Data Catalog-Rollen aufgeführt:

  • Damit ein Nutzer eine Tag-Vorlage erstellen oder aktualisieren kann, müssen Sie ihm die Rolle „Tag-Vorlagen-Ersteller“ zuweisen.

  • Damit ein Nutzer Tags auf einen Dateneintrag anwenden kann, müssen Sie ihm die Nutzerrolle für Tag-Vorlagen zuweisen.

Weitere Informationen finden Sie unter Data Catalog-Identitäts- und Zugriffsverwaltung.

Regionale Ressourcen

Jede Tag-Vorlage und jedes Tag wird in einer bestimmten Google Cloud-Region gespeichert. Sie können eine Tag-Vorlage verwenden, um ein Tag in einer beliebigen Region zu erstellen. Sie müssen also keine Kopien Ihrer Vorlage erstellen, wenn Dateneinträge über mehrere Regionen verteilt sind.

Weitere Informationen