Présentation de Data Catalog

Sans les bons outils, la gestion des actifs de données peut être longue et coûteuse. Data Catalog fournit un emplacement centralisé où les organisations peuvent rechercher, gérer et décrire leurs éléments de données.

Data Catalog est un service de gestion des métadonnées entièrement géré et évolutif qui fait partie de la gamme de produits d'analyse de données de Google Cloud.

Utiliser Data Catalog

Vous pouvez interagir avec Data Catalog de deux manières :

  • Recherche des actifs de données auxquels vous avez accès
  • Ajout de tags à des actifs avec des métadonnées

En outre, Data Catalog interagit avec Cloud Data Loss Prevention (DLP) pour identifier automatiquement les données sensibles à l'aide du puissant mécanisme automatique d'ajout de tags de Cloud Data Loss Prevention.

Fonctionnement de Data Catalog

Data Catalog peut répertorier les métadonnées natives sur les éléments de données provenant des sources suivantes du système de stockage Google Cloud :

  • Ensembles de données, tables et vues BigQuery
  • Sujets Pub/Sub

Vous pouvez également créer et gérer des entrées pour des types de ressources de données personnalisés à l'aide des API Data Catalog.

Une fois vos données répertoriées, vous pouvez ajouter vos propres métadonnées à ces éléments à l'aide de tags.

Métadonnées techniques et commerciales

Data Catalog gère deux types de métadonnées : les métadonnées techniques et les métadonnées commerciales. Pour comprendre la différence, consultez l'exemple d'entrée Data Catalog ci-dessous :

Exemple d'entrée Data Catalog

  • Métadonnées techniques : représentées dans l'encadré rouge ci-dessus, elles proviennent du système de stockage sous-jacent où se trouve l'élément de données et comprennent les éléments suivants :
    • Informations sur le projet, telles que le nom et l'ID
    • Nom et description de l'actif
    • Étiquettes des ressources Google Cloud
    • Nom du schéma et description des tables et vues BigQuery
  • Métadonnées commerciales : représentées dans l'encadré bleu ci-dessus, il s'agit de métadonnées générées par l'utilisateur appliquées à l'élément à l'aide de tags Data Catalog. Les métadonnées commerciales sont toujours associées à une entrée de métadonnées techniques.

Recherche et découverte

Data Catalog offre des fonctionnalités de recherche puissantes et structurées, ainsi qu'un filtrage basé sur des prédicats sur les métadonnées techniques et commerciales d'un élément de données. Vous devez avoir la capacité de lire les métadonnées d'un élément de données pour pouvoir le rechercher et le découvrir. Data Catalog n'indexe pas les données dans un élément de données, mais il indexe les métadonnées décrivant un élément.

Data Catalog contrôle certaines métadonnées telles que les tags générés par l'utilisateur, mais pour toutes les métadonnées provenant du système de stockage sous-jacent, Data Catalog est un service en lecture seule qui reflète les métadonnées et les autorisations fournies par le système de stockage sous-jacent. Les modifications apportées aux métadonnées natives d'un actif, telles que l'ajout, la suppression ou la mise à jour, peuvent être effectuées dans le système de stockage sous-jacent.

Pour un projet donné, Data Catalog répertorie automatiquement tous les ensembles de données, tables, vues et tables externes de BigQuery dans Cloud Storage, Cloud Bigtable ou Google Sheets. Data Catalog va également répertorier automatiquement les sujets Pub/Sub de ce projet.

En plus de répertorier les éléments dans les ID de projets pour lesquels vous avez accès aux métadonnées, Data Catalog peut répertorier des données stockées dans les projets BigQuery qui contiennent des ensembles de données publics.

Tags

Il est difficile de documenter les actifs de données à grande échelle, en particulier lorsque les données sont utilisées par différents groupes au sein d'une organisation. Chaque groupe peut disposer de son propre ensemble de documentation pour décrire les actifs de données. Les modèles de tag Data Catalog vous aident à créer et à gérer des métadonnées communes sur les éléments de données dans un emplacement unique. Les tags sont associés à l'élément de données, ce qui signifie qu'il est visible dans le système Data Catalog. À l'aide de cette fonctionnalité, vous pouvez également créer d'autres applications qui utilisent ces métadonnées contextuelles sur un actif de données et effectuer des actions supplémentaires.

Interagir avec Data Catalog

Vous pouvez accéder à Data Catalog à l'aide de Cloud Console, de l'interface de ligne de commande (CLI) gcloud et des API Data Catalog, ou en appelant l'API à l'aide des bibliothèques clientes cloud.

Étapes suivantes