Exploiter Data Catalog
Data Catalog est une fonctionnalité de Dataplex qui s'intègre à BigQuery en cataloguant automatiquement les métadonnées relatives aux ressources BigQuery telles que les tables, les ensembles de données, les vues et les modèles. Ce document explique comment rechercher ces ressources, afficher la traçabilité des données et ajouter des tags à l'aide de Data Catalog.
Rechercher des ressources BigQuery
Pour rechercher des ensembles de données, des tables et des projets ajoutés aux favoris à l'aide de Data Catalog, procédez comme suit:
Dans la console Google Cloud, accédez à la page de recherche de Dataplex.
Dans le champ Rechercher, saisissez une requête, puis cliquez sur Rechercher.
Pour affiner vos paramètres de recherche, utilisez le panneau Filtres. Par exemple, dans la section Systèmes, cochez la case BigQuery. Les résultats sont filtrés par les systèmes BigQuery.
Vous pouvez effectuer des recherches de base dans Data Catalog via la console Google Cloud. Pour en savoir plus sur la recherche dans la console Google Cloud, consultez la page Ouvrir un ensemble de données public.
Traçabilité des données
La traçabilité des données est une fonctionnalité Dataplex qui vous permet de suivre la manière dont les données transitent par vos systèmes : leur origine, la cible de transmission, et les transformations qui leur sont appliquées. Vous pouvez accéder à la fonctionnalité de traçabilité des données directement à partir de BigQuery.
L'activation de la traçabilité des données dans votre projet BigQuery oblige Dataplex à enregistrer automatiquement les informations de traçabilité des tables créées par les opérations suivantes :
- Tâches de copie
Tâches de requête qui utilisent les instructions LDD (langage de définition de données) ou LMD (langage de manipulation de données) suivantes dans GoogleSQL :
CREATE TABLE
(y compris l'instructionCREATE TABLE AS SELECT
)INSERT
UPDATE
DELETE
MERGE
Avant de commencer
Dans cette section, vous activez l'API Data Lineage et attribuez des rôles IAM (Identity and Access Management) qui donnent aux utilisateurs les autorisations nécessaires pour effectuer l'ensemble des tâches du présent document.
Activer la traçabilité des données
- Dans la console Google Cloud, sur la page de sélection du projet, sélectionnez le projet contenant les ressources pour lesquelles vous souhaitez suivre la traçabilité.
- Activez les API Data Lineage et Data Catalog.
Rôles IAM requis
Les informations de traçabilité sont suivies automatiquement lorsque vous activez l'API Data Lineage.
Pour obtenir les autorisations nécessaires pour afficher les graphiques de visualisation de la traçabilité, demandez à votre administrateur de vous accorder les rôles IAM suivants :
-
Lecteur Data Catalog (
roles/datacatalog.viewer
) sur un projet de ressources Data Catalog. -
Lecteur de la traçabilité des données (
roles/datalineage.viewer
) sur le projet dans lequel vous utilisez des systèmes compatibles avec la traçabilité des données. -
Métadonnées BigQuery (
roles/bigquery.metadataViewer
)
Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Pour en savoir plus, consultez la page Rôles de traçabilité des données.
Afficher les graphiques de traçabilité dans BigQuery
Pour afficher le graphique de visualisation de la traçabilité des données de BigQuery, procédez comme suit:
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le panneau Explorateur, développez votre projet et votre ensemble de données, puis sélectionnez la table.
Cliquez sur l'onglet Traçabilité.
Le graphique de visualisation de la traçabilité des données s'affiche.
Facultatif: Sélectionnez un nœud pour afficher des détails supplémentaires sur les entités ou les processus impliqués dans la création des informations de traçabilité.
Pour en savoir plus sur la traçabilité des données, consultez la page À propos de la traçabilité des données.
Tags et modèles de tags
Les tags permettent aux organisations de créer, rechercher et gérer des métadonnées pour toutes leurs entrées de données dans un service unifié.
Cette section explique deux concepts clés de Data Catalog:
Les tags vous permettent de fournir du contexte pour une entrée de données en associant des champs de métadonnées personnalisés.
Les modèles de tags Dataplex sont des structures réutilisables qui vous permettent de créer rapidement des tags.
Tags
Data Catalog fournit deux types de tags: les tags privés et les tags publics.
Tags privés
Les tags privés fournissent des contrôles d'accès stricts. Les utilisateurs ne peuvent rechercher ou afficher les tags et les entrées de données associées que s'ils disposent des droits d'affichage requis pour le modèle de tag privé et les entrées de données.
Pour rechercher des tags privés sur la page "Data Catalog", vous devez utiliser la syntaxe de recherche tag:
ou les filtres de recherche.
Les tags privés sont adaptés aux scénarios dans lesquels vous devez stocker des informations sensibles dans le tag et vous souhaitez appliquer des restrictions d'accès supplémentaires en plus de vérifier que l'utilisateur est autorisé à afficher l'entrée taguée.
Tags publics
Les tags publics offrent un contrôle d'accès moins strict pour la recherche et l'affichage des tags par rapport aux tags privés. Les utilisateurs disposant des autorisations requises pour consulter une entrée de données peuvent afficher tous les tags publics qui lui sont associés. Les autorisations d'affichage pour les tags publics ne sont requises que lorsque vous effectuez une recherche dans Data Catalog à l'aide de la syntaxe tag:
ou lorsque vous affichez un modèle de tag non associé.
Les tags publics sont compatibles avec la recherche simple et la recherche avec des prédicats sur la page de recherche de Data Catalog. Lorsque vous créez un modèle de tag, l'option permettant de créer un modèle de tag public est l'option par défaut et recommandée dans la console Google Cloud.
Par exemple, supposons que vous disposiez d'un modèle de tag public appelé employee data
, que vous avez utilisé pour créer des tags pour trois entrées de données appelées Name
, Location
et Salary
. Parmi les trois entrées de données, seuls les membres d'un groupe spécifique appelé HR
peuvent afficher l'entrée de données Salary
. Les deux autres entrées de données disposent de droits d'affichage pour tous les employés de l'entreprise.
Si un employé n'étant pas membre de HR
utilise la page de recherche Data Catalog et effectue une recherche à l'aide du mot employee
, le résultat de la recherche affiche uniquement les entrées de données Name
et Location
avec les tags publics associés.
Les tags publics sont utiles dans un large éventail de scénarios. Les tags publics sont compatibles avec la recherche simple et la recherche avec des prédicats, tandis que les tags privés ne sont compatibles qu'avec la recherche avec des prédicats.
Modèles de tag
Pour commencer à ajouter des métadonnées, vous devez créer un ou plusieurs modèles de tags. Un modèle de balise peut être public ou privé. Lorsque vous créez un modèle de tag, l'option permettant de créer un modèle de tag public est l'option par défaut et recommandée dans la console Google Cloud. Un modèle de tag est un groupe de paires de métadonnées clé/valeur, appelé champs. Disposer d'un ensemble de modèles s'apparente à disposer d'un schéma de base de données pour vos métadonnées.
Vous pouvez structurer vos tags par thème. Exemple :
- Un tag
data governance
de gouvernance des données comprenant des champs pour : gouverneur de données, date de conservation, date de suppression, informations personnelles (oui ou non), classification des données (publiques, confidentielles, sensibles, réglementaires) - Un tag
data quality
comportant des champs pour les problèmes de qualité, la fréquence de mise à jour et les informations de SLO - Un tag
data usage
comportant des champs pour les utilisateurs les plus fréquents, les requêtes les plus fréquentes et le nombre d'utilisateurs quotidiens moyen
Vous pouvez alors combiner et associer des tags en n'utilisant que les tags pertinents pour chaque actif de données et pour vos besoins d'entreprise.
Afficher la galerie de modèles de tags
Pour vous aider à démarrer, Data Catalog inclut une galerie de modèles de tags pour illustrer des cas d'utilisation courants d'ajout de tags. Utilisez ces exemples pour en savoir plus sur les avantages offerts par l'ajout de tags, pour obtenir des idées ou comme point de départ pour créer votre propre infrastructure d'ajout de tags.
Pour utiliser une galerie de modèles de tags, procédez comme suit :
Dans la console Google Cloud, accédez à la page Modèles de tags de Dataplex.
Cliquez sur Créer un modèle de tag.
La galerie de modèles s'affiche sur la page Créer un modèle.
Une fois que vous avez sélectionné un modèle dans la galerie, vous pouvez l'utiliser comme n'importe quel autre modèle de tag. Vous pouvez ajouter ou supprimer des attributs, et apporter des modifications au modèle selon les besoins de votre entreprise. Vous pouvez ensuite rechercher les champs et les valeurs du modèle à l'aide de Data Catalog.
Pour en savoir plus sur les tags et les modèles de tag, consultez la page Tags et modèles de tags.
Ressources régionales
Chaque modèle de tag et tag est stocké dans une région Google Cloud particulière. Vous pouvez utiliser un modèle de tag pour créer un tag dans n'importe quelle région. Vous n'avez donc pas besoin de créer des copies de votre modèle si vos entrées de métadonnées sont réparties dans plusieurs régions.