Tags et modèles de tags

Il est difficile de documenter les entrées de données à grande échelle, en particulier lorsqu'elles sont utilisées par différents groupes au sein d'une organisation ayant des besoins différents. Souvent, chaque groupe crée son propre ensemble de documentation et de métadonnées pour décrire les mêmes données, ce qui entraîne des efforts redondants et des informations incomplètes. Data Catalog résout ce problème à l'aide de tags, qui permettent aux entreprises de créer, de rechercher et de gérer les métadonnées de toutes leurs entrées de données dans un service unifié.

Ce document décrit deux concepts clés de Data Catalog:

  • Tags : Champs de métadonnées personnalisées que vous pouvez associer à une entrée de données pour fournir du contexte.

  • Modèles de tag : Structures réutilisables permettant de créer rapidement des tags.

Tags

Les tags sont un type de métadonnées métier. L'ajout de tags à une entrée de données permet de fournir un contexte pertinent à toute personne ayant besoin d'utiliser l'élément. Par exemple, une balise peut vous fournir des informations telles que le responsable d'une entrée de données particulière, si elle contient des informations permettant d'identifier personnellement l'utilisateur, les règles de conservation des données de l'élément et un niveau de qualité des données.

Il peut s'agir de tags publics ou privés. Chaque type de tag présente des avantages uniques, adaptés aux besoins de votre entreprise.

Tags privés

Les tags privés permettent un contrôle d'accès strict. Vous ne pouvez rechercher ou afficher les tags et les entrées de données qui leur sont associées que si vous disposez des autorisations d'affichage requises sur le modèle de tag privé et les entrées de données.

La recherche de tags privés dans la page Data Catalog nécessite l'utilisation de la syntaxe de recherche tag: ou des filtres de recherche.

Les tags privés sont adaptés aux scénarios dans lesquels vous devez stocker des informations sensibles dans le tag et vous souhaitez appliquer des restrictions d'accès supplémentaires en plus de vérifier que l'utilisateur est autorisé à afficher l'entrée taguée.

Tags publics

Les tags publics offrent contrôle des accès moins strict pour la recherche et l'affichage des tags que les tags privés. Les utilisateurs disposant des autorisations requises pour consulter une entrée de données peuvent afficher tous les tags publics qui lui sont associés. Les autorisations d'affichage pour les tags publics ne sont requises que lorsque vous effectuez une recherche dans Data Catalog en utilisant la syntaxe tag: ou lorsque vous affichez un modèle de tag non associé.

Les tags publics sont compatibles avec la recherche simple et la recherche avec des prédicats sur la page de recherche de Data Catalog. Lorsque vous créez un modèle de tag, l'option permettant de créer un modèle de tag public est l'option par défaut et recommandée dans la console Google Cloud.

Par exemple, supposons que vous disposiez d'un modèle de tag public appelé employee data, que vous avez utilisé afin de créer des tags pour trois entrées de données appelées Name, Location et Salary. Parmi les trois entrées de données, seuls les membres d'un groupe spécifique appelé HR peuvent afficher l'entrée de données Salary. Les deux autres entrées de données disposent d'autorisations d'affichage pour tous les employés de l'entreprise.

Si un employé qui n'est pas membre du groupe HR utilise la page de recherche Data Catalog et effectue une recherche avec le mot employee, le résultat de la recherche n'affiche que les entrées de données Name et Location avec les tags publics associés.

Les tags publics sont utiles dans de nombreux scénarios et sont intuitifs. Les tags publics sont compatibles avec la recherche simple et la recherche à l'aide de prédicats, tandis que les tags privés n'acceptent que la recherche à l'aide de prédicats.

Exemples de tags associés à une entrée de données

Le schéma suivant présente un exemple de table client (cust_tbl), avec plusieurs tags de métadonnées commerciales associés à la table et à ses colonnes.

L'exemple utilise des tags de table pour décrire la gouvernance, la qualité et l'utilisation des données, et des tags de colonne pour signaler les informations permettant d'identifier personnellement l'utilisateur, telles que les numéros de sécurité sociale et les coordonnées.
Figure 1. Data Catalog est compatible avec l'ajout de tags au niveau de la table et des colonnes.

Modèles de tag

Pour commencer à ajouter des tags, vous devez créer un ou plusieurs modèles de tags, Un modèle de balise peut être public ou privé. Lorsque vous créez un modèle de tag, l'option permettant de créer un modèle de tag public est l'option par défaut et recommandée dans la console Google Cloud. Un modèle de tag est un groupe de paires de métadonnées clé/valeur, appelé champs. Disposer d'un ensemble de modèles s'apparente à disposer d'un schéma de base de données pour vos métadonnées.

Vous pouvez structurer vos tags par sujet. Exemple :

  • Un tag de gouvernance des données comprenant des champs pour : gouverneur de données, date de conservation, date de suppression, informations personnelles (oui ou non), classification des données (publiques, confidentielles, sensibles, réglementaires)
  • Un tag de qualité des données comportant des champs pour les problèmes de qualité, la fréquence de mise à jour et les informations de SLO
  • Un tag de consommation des données contenant les champs suivants : utilisateurs les plus fréquents, requêtes les plus fréquentes, nombre d'utilisateurs quotidiens moyen

Vous pouvez alors combiner et associer des tags en n'utilisant que les tags pertinents pour chaque actif de données et pour vos besoins d'entreprise.

Champs dans un tag

Les tags contiennent un ou plusieurs champs dans lesquels les informations peuvent être stockées. Les champs d'un tag sont définis par un modèle de tag, et chaque champ peut être utilisé pour stocker une ou plusieurs valeurs. Chaque tag est une instance d'un modèle de tag, qui peut être appliqué à une entrée de données entière, ou à des tables ou colonnes spécifiques. Un tag sur une colonne peut vous indiquer, par exemple, si cette colonne contient des informations personnelles, si elle est obsolète ou quelle formule a été utilisée pour calculer une certaine valeur.

Chaque champ contient un ID, un nom à afficher et un type. Le type peut être string, double, boolean, enum (énumération) ou datetime. Lorsque le type est enum, le modèle stocke également les valeurs autorisées pour le champ.

Les champs sont stockés dans le modèle sous la forme d'un ensemble ordonné, dans lequel l'ordre représente l'importance relative d'un champ par rapport aux autres champs.

Les champs sont facultatifs, sauf s'ils sont marqués comme "obligatoires". Un champ obligatoire doit se voir attribuer une valeur lorsque le modèle est utilisé, tandis qu'un champ facultatif peut rester vide.

Une fois le modèle créé, vous ne pouvez pas rendre un champ facultatif obligatoire.

Exemples de champs dans un tag

Voici un exemple de modèle de tag du quickstart, contenant plusieurs types de champs:

L'exemple de modèle de tag définit les champs pour la source de données, le nombre de lignes, la présence d'informations permettant d'identifier personnellement l'utilisateur et le type d'informations permettant d'identifier personnellement l'utilisateur.
Figure 2. Modèle de tag Data Catalog.

Voici un tag créé à partir du modèle, avec des valeurs values fournies pour chaque champ:

L'exemple de tag indique que ses données proviennent d'une table nommée, comportent des centaines de millions de lignes et ne contiennent aucune information permettant d'identifier personnellement l'utilisateur.
Figure 3 : Tag créé à partir d'un modèle de tag.

Pour vous aider à démarrer, Data Catalog inclut une galerie de modèles de tags pour illustrer des cas d'utilisation courants d'ajout de tags. Utilisez ces exemples pour en savoir plus sur les avantages offerts par l'ajout de tags, pour obtenir des idées ou comme point de départ pour créer votre propre infrastructure d'ajout de tags.

Pour utiliser un modèle de tag, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Dataplex Modèles de tag.

    Accéder aux modèles de tag

  2. Cliquez sur Créer un modèle de tag.

    La galerie de modèles s'affiche sur la page Créer un modèle.

Une fois que vous avez sélectionné un modèle dans la galerie, vous pouvez l'utiliser comme n'importe quel autre modèle de tag. Vous pouvez ajouter ou supprimer des attributs, et apporter des modifications au modèle selon les besoins de votre entreprise. Vous pouvez ensuite rechercher les champs et les valeurs du modèle à l'aide de Data Catalog.

Contrôle des accès aux tags

Les tags et leurs métadonnées peuvent contenir des informations sensibles, et les équipes de gouvernance des données peuvent souhaiter que certains tags ne soient visibles qu'à certains groupes d'utilisateurs. Data Catalog permet de contrôle des accès aux modèles de tag, et ces paramètres s'appliquent à tous les tags créés à l'aide de ce modèle.

Vous pouvez configurer des modèles de tag avec de nombreuses configurations de contrôle des accès, par exemple:

  • Un modèle de tag que seul le créateur du modèle peut utiliser pour créer des tags
  • Un modèle de tag qui crée des tags visibles uniquement par un groupe restreint d'utilisateurs
  • Modèle de tag permettant à un ensemble restreint d'utilisateurs de créer des tags visibles uniquement par un autre ensemble (éventuellement identique) d'utilisateurs
  • Un modèle de tag visible par tous les utilisateurs d'une organisation ou d'un projet (tag public)

L'accès à un modèle de tag est accordé ou refusé à l'aide des rôles IAM. Ils fournissent les autorisations nécessaires pour créer, modifier et utiliser le modèle de tag. Voici quelques rôles Data Catalog disponibles:

  • Pour permettre à un utilisateur de créer ou de mettre à jour un modèle de tag, vous devez lui accorder le rôle de créateur de modèle de tag.

  • Pour permettre à un utilisateur d'appliquer des tags à une entrée de données, vous devez lui attribuer le rôle utilisateur "Modèle de tag".

Pour en savoir plus, consultez la page Gestion de l'authentification et des accès Data Catalog.

Ressources régionales

Chaque modèle de tag et tag est stocké dans une région Google Cloud particulière. Vous pouvez utiliser un modèle de tag pour créer un tag dans n'importe quelle région. Vous n'avez donc pas besoin de créer des copies de votre modèle si vos entrées de données sont réparties dans plusieurs régions.

Étape suivante