Tags et modèles de tags

Il est difficile de documenter les entrées de données à grande échelle, en particulier lorsqu'elles sont utilisées par différents groupes d'une organisation aux besoins différents. Souvent, chaque groupe crée son propre ensemble de documentation et de métadonnées pour décrire les mêmes données, ce qui entraîne des efforts dupliqués et des informations incomplètes. Data Catalog résout ce problème grâce aux tags, qui permettent aux organisations de créer, de rechercher et de gérer des métadonnées pour toutes leurs entrées de données dans un service unifié.

Ce document explique deux concepts clés de Data Catalog:

  • Tags : Champs de métadonnées personnalisées que vous pouvez associer à une entrée de données pour fournir du contexte

  • Modèles de tag : Structures réutilisables permettant de créer rapidement des balises.

Tags

Les tags sont un type de métadonnées commerciales. L'ajout de balises à une entrée de données permet de fournir un contexte pertinent à toute personne qui a besoin d'utiliser l'élément. Par exemple, une balise peut vous indiquer qui est responsable d'une entrée de données particulière, si elle contient des informations permettant d'identifier personnellement l'utilisateur, les règles de conservation des données de l'élément et le niveau de qualité des données.

Les tags peuvent être des tags publics ou des tags privés. Chaque type de tag présente des avantages uniques pour répondre aux besoins de votre entreprise.

Tags privés

Les tags privés permettent un contrôle des accès strict. Vous ne pouvez rechercher ou afficher les balises et les entrées de données qui leur sont associées que si vous disposez des autorisations d'affichage requises pour le modèle de tag privé et les entrées de données.

Pour rechercher des tags privés dans la page Data Catalog, vous devez utiliser la syntaxe de recherche tag: ou les filtres de recherche.

Les tags privés sont adaptés aux scénarios dans lesquels vous devez stocker des informations sensibles dans le tag et vous souhaitez appliquer des restrictions d'accès supplémentaires en plus de vérifier que l'utilisateur est autorisé à afficher l'entrée taguée.

Tags publics

Les tags publics offrent contrôle des accès moins strict pour la recherche et l'affichage des tags que les tags privés. Les utilisateurs disposant des autorisations requises pour consulter une entrée de données peuvent afficher tous les tags publics qui lui sont associés. Les autorisations d'affichage pour les tags publics ne sont requises que lorsque vous effectuez une recherche dans Data Catalog à l'aide de la syntaxe tag: ou lorsque vous affichez un modèle de tag non associé.

Les tags publics sont compatibles avec la recherche simple et la recherche avec des prédicats dans la page de recherche de Data Catalog. Lorsque vous créez un modèle de tag, l'option permettant de créer un modèle de tag public est l'option par défaut et recommandée dans la console Google Cloud.

Par exemple, supposons que vous disposiez d'un modèle de tag public appelé employee data que vous avez utilisé afin de créer des tags pour trois entrées de données appelées Name, Location et Salary. Parmi les trois entrées de données, seuls les membres d'un groupe spécifique appelé HR peuvent afficher l'entrée de données Salary. Les deux autres entrées de données disposent d'autorisations d'affichage pour tous les employés de l'entreprise.

Si un employé qui n'est pas membre du groupe HR utilise la page de recherche Data Catalog et effectue une recherche à l'aide du mot employee, le résultat de la recherche n'affiche que les entrées de données Name et Location avec les tags publics associés.

Les tags publics sont utiles pour de nombreux scénarios, et leur utilisation est intuitive. Les tags publics permettent une recherche simple avec des prédicats, tandis que les tags privés n'acceptent que des recherches avec prédicats.

Exemples de tags associés à une entrée de données

Le schéma suivant présente un exemple de table client (cust_tbl), avec plusieurs tags de métadonnées commerciales associés à la table et à ses colonnes.

L'exemple utilise des balises de table pour décrire la gouvernance, la qualité et l'utilisation des données, ainsi que des balises de colonne pour signaler les informations permettant d'identifier personnellement l'utilisateur, telles que les numéros de sécurité sociale et les coordonnées.
Figure 1. Data Catalog accepte l'ajout de tags au niveau des tables et des colonnes.

Modèles de tag

Pour commencer à taguer des données, vous devez d'abord créer un ou plusieurs modèles de tag. Un modèle de tag peut être un modèle de tag public ou privé. Lorsque vous créez un modèle de tag, l'option permettant de créer un modèle de tag public est l'option par défaut et recommandée dans la console Google Cloud. Un modèle de tag est un groupe de paires de métadonnées clé/valeur, appelé champs. Disposer d'un ensemble de modèles s'apparente à disposer d'un schéma de base de données pour vos métadonnées.

Vous pouvez structurer vos tags par sujet. Exemple :

  • Un tag de gouvernance des données comprenant des champs pour : gouverneur de données, date de conservation, date de suppression, informations personnelles (oui ou non), classification des données (publiques, confidentielles, sensibles, réglementaires)
  • Un tag de qualité des données comportant des champs pour les problèmes de qualité, la fréquence de mise à jour et les informations de SLO
  • Un tag de consommation des données contenant les champs suivants : utilisateurs les plus fréquents, requêtes les plus fréquentes, nombre d'utilisateurs quotidiens moyen

Vous pouvez alors combiner et associer des tags en n'utilisant que les tags pertinents pour chaque actif de données et pour vos besoins d'entreprise.

Champs d'un tag

Les tags contiennent un ou plusieurs champs dans lesquels les informations peuvent être stockées. Les champs d'un tag sont définis par un modèle de tag, et chaque champ peut être utilisé pour stocker une ou plusieurs valeurs. Chaque balise est une instance d'un modèle de balise, qui peut être appliqué à une entrée de données entière, ou à des tables ou colonnes particulières. Un tag sur une colonne peut vous indiquer, par exemple, si cette colonne contient des informations personnelles, si elle est obsolète ou quelle formule a été utilisée pour calculer une certaine valeur.

Chaque champ contient un ID, un nom à afficher et un type. Le type peut être string, double, boolean, enum (énumération) ou datetime. Lorsque le type est enum, le modèle stocke également les valeurs autorisées pour le champ.

Les champs sont stockés dans le modèle sous la forme d'un ensemble ordonné, dans lequel l'ordre représente l'importance relative d'un champ par rapport aux autres champs.

Les champs sont facultatifs, sauf s'ils sont marqués comme "obligatoires". Un champ obligatoire doit se voir attribuer une valeur lorsque le modèle est utilisé, tandis qu'un champ facultatif peut rester vide.

Vous ne pouvez pas modifier un champ facultatif en champ obligatoire après avoir créé votre modèle.

Exemples de champs dans un tag

Voici un exemple de modèle de tag provenant du quickstart, contenant plusieurs types de champs:

L'exemple de modèle de tag définit les champs de la source de données, le nombre de lignes, la présence d'informations permettant d'identifier personnellement l'utilisateur et le type d'informations personnelles.
Figure 2. Modèle de tag Data Catalog.

Voici un tag créé à partir du modèle, chaque champ contenant des valeurs:

L'exemple de tag indique que ses données proviennent d'une table nommée, comportent des centaines de millions de lignes et ne contiennent aucune information permettant d'identifier personnellement l'utilisateur.
Figure 3 : Tag créé à partir d'un modèle de tag.

Pour vous aider à démarrer, Data Catalog inclut une galerie de modèles de tags pour illustrer des cas d'utilisation courants d'ajout de tags. Utilisez ces exemples pour en savoir plus sur les avantages offerts par l'ajout de tags, pour obtenir des idées ou comme point de départ pour créer votre propre infrastructure d'ajout de tags.

Pour utiliser un groupe de modèles de balises, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Modèles de tag de Dataplex.

    Accéder aux modèles de tag

  2. Cliquez sur Créer un modèle de tag.

    La galerie de modèles s'affiche sur la page Créer un modèle.

Une fois que vous avez sélectionné un modèle dans la galerie, vous pouvez l'utiliser comme n'importe quel autre modèle de tag. Vous pouvez ajouter ou supprimer des attributs, et apporter des modifications au modèle selon les besoins de votre entreprise. Vous pouvez ensuite rechercher les champs et les valeurs du modèle à l'aide de Data Catalog.

Contrôle des accès aux tags

Les tags et leurs métadonnées peuvent contenir des informations sensibles, et les équipes de gouvernance des données peuvent souhaiter que certains tags ne soient visibles qu'à certains groupes d'utilisateurs. Data Catalog permet de contrôle des accès aux modèles de tags, et ces paramètres s'appliquent à toutes les balises créées à l'aide de ces modèles.

Vous pouvez définir des modèles de tag avec de nombreuses configurations de contrôle des accès. Par exemple:

  • Un modèle de tag que seul le créateur du modèle peut utiliser pour créer des tags
  • un modèle de tag qui crée des balises qui ne sont visibles que par un groupe restreint d'utilisateurs ;
  • Un modèle de tag qu'un ensemble restreint d'utilisateurs peut utiliser pour créer des tags qui ne sont visibles que par un autre ensemble d'utilisateurs (éventuellement identiques)
  • Un modèle de tag visible par tous les utilisateurs d'une organisation ou d'un projet (tag public)

L'accès à un modèle de tag est accordé ou refusé à l'aide des rôles IAM. Ces autorisations permettent de créer, de modifier et d'utiliser le modèle de tag. Voici quelques rôles Data Catalog disponibles:

  • Pour permettre à un utilisateur de créer ou de mettre à jour un modèle de tag, vous devez lui attribuer le rôle de créateur de modèle de tag.

  • Pour permettre à un utilisateur d'appliquer des tags à une entrée de données, vous devez lui attribuer le rôle utilisateur "Modèle de tag".

Pour en savoir plus, consultez la page Gestion de l'authentification et des accès Data Catalog.

Ressources régionales

Chaque modèle de tag et tag est stocké dans une région Google Cloud particulière. Vous pouvez utiliser un modèle de tag pour créer un tag dans n'importe quelle région. Vous n'avez donc pas besoin de créer des copies de votre modèle si vos entrées de données sont réparties dans plusieurs régions.

Étape suivante