Présentation de Data Catalog

Data Catalog est un service de gestion des métadonnées entièrement géré et évolutif qui fait partie de la gamme de produits d'analyse de données de Google Cloud.

Pourquoi avez-vous besoin d'un catalogue de données ?

La plupart des entreprises gèrent actuellement un nombre croissant d'éléments de données.

Les personnes impliquées dans les données (consommateurs, producteurs et administrateurs) au sein d'une organisation doivent faire face à un certain nombre de défis:

  • Recherche de données pertinentes:

    • Les consommateurs de données ignorent l'emplacement des données. et qu'ils doivent naviguer dans les données.
    • Les consommateurs de données ne savent pas quelles données utiliser pour obtenir des informations, car la plupart des données ne sont pas bien documentées et, même si elles sont documentées, ne sont pas correctement entretenues.
    • Les données sont introuvables et sont souvent perdues lorsqu'elles n'appartiennent que dans l'esprit de chacun.
  • Comprendre les données:

    • Les données sont-elles fraîches, propres, validées, approuvées pour l'utilisation en production ?
    • Quel ensemble de données issues de plusieurs ensembles en double est pertinent et à jour ?
    • Quelle est la relation entre un ensemble de données et un autre ?
    • Qui utilise les données et qui est le propriétaire ?
    • Qui et quels processus transforment les données ?
  • Rendre des données utiles:

    • Les producteurs de données ne disposent pas d'un moyen efficace de faire passer leurs données aux consommateurs. En l'absence de libre-service, les consommateurs risquent de surcharger les producteurs. Plusieurs ingénieurs ne peuvent pas fournir manuellement des données à des milliers d'analystes.

    • Une perte de temps précieux est perdue si les consommateurs doivent savoir comment demander l'accès aux données, les demander, attendre sans délai de réponse défini, transmettre la requête, etc.

Sans les bons outils, les défis ci-dessus constituent un obstacle majeur à l'utilisation efficace des données. Data Catalog fournit un emplacement centralisé qui permet aux organisations de:

  • Obtenez une vue unifiée pour éviter la recherche de données appropriées.
  • Enrichissez les données avec des métadonnées techniques et métier pour permettre de prendre des décisions basées sur les données et accélérer le processus.
  • Améliorez la gestion des données pour améliorer l'efficacité opérationnelle et la productivité.
  • Propriété des données pour renforcer la confiance et la confiance.

Utiliser Data Catalog

Vous pouvez interagir avec Data Catalog de deux manières :

  • Recherche des actifs de données auxquels vous avez accès
  • Ajout de tags à des actifs avec des métadonnées

En outre, Data Catalog interagit avec Cloud Data Loss Prevention (DLP) pour identifier automatiquement les données sensibles à l'aide du puissant mécanisme automatique d'ajout de tags de Cloud Data Loss Prevention.

Fonctionnement de Data Catalog

Data Catalog peut cataloguer les métadonnées natives sur les éléments de données provenant des sources système Google Cloud suivantes:

  • Ensembles de données, tables et vues BigQuery
  • Sujets Pub/Sub
  • Services Dataproc Metastore, bases de données et tables

Vous pouvez également créer et gérer des entrées pour des types de ressources de données personnalisés à l'aide des API Data Catalog.

Une fois vos données répertoriées, vous pouvez ajouter vos propres métadonnées à ces éléments à l'aide de tags.

Métadonnées techniques et commerciales

Data Catalog gère deux types de métadonnées: les métadonnées techniques et les métadonnées commerciales. Pour comprendre la différence, consultez l'exemple d'entrée Data Catalog ci-dessous :

  • Métadonnées techniques:affichées sous Détails de la table BigQuery ci-dessus, elles proviennent du système de stockage sous-jacent où réside l'élément de données et comprend:

    • Informations sur le projet, telles que le nom et l'ID
    • Nom et description de l'actif
    • Étiquettes des ressources Google Cloud
    • Nom du schéma et description des tables et vues BigQuery
  • Métadonnées métier:affichées sous Tags (1) ci-dessus, il s'agit de métadonnées générées par l'utilisateur et appliquées à l'élément à l'aide de balises Data Catalog. Les métadonnées commerciales sont toujours associées à une entrée de métadonnées techniques.

Recherche et découverte

Data Catalog offre des fonctionnalités de recherche puissantes et structurées, ainsi qu'un filtrage basé sur des prédicats sur les métadonnées techniques et commerciales d'un élément de données. Vous devez avoir la capacité de lire les métadonnées d'un élément de données pour pouvoir le rechercher et le découvrir. Data Catalog n'indexe pas les données dans un élément de données, mais il indexe les métadonnées décrivant un élément.

Data Catalog contrôle certaines métadonnées telles que les tags générés par l'utilisateur, mais pour toutes les métadonnées provenant du système de stockage sous-jacent, Data Catalog est un service en lecture seule qui reflète les métadonnées et les autorisations fournies par le système de stockage sous-jacent. Les modifications apportées aux métadonnées natives d'un actif, telles que l'ajout, la suppression ou la mise à jour, peuvent être effectuées dans le système de stockage sous-jacent.

Pour un projet donné, Data Catalog catalogue automatiquement les éléments suivants:

  • Ensembles de données, tables, vues et tables externes BigQuery dans Cloud Storage, Cloud Bigtable ou Google Sheets
  • Sujets Pub/Sub
  • Services Dataproc Metastore, bases de données et tables

En plus de répertorier les éléments dans les ID de projets pour lesquels vous avez accès aux métadonnées, Data Catalog peut répertorier des données stockées dans les projets BigQuery qui contiennent des ensembles de données publics.

Tags

Il est difficile de documenter les actifs de données à grande échelle, en particulier lorsque les données sont utilisées par différents groupes au sein d'une organisation. Chaque groupe peut disposer de son propre ensemble de documentation pour décrire les actifs de données. Les modèles de tag Data Catalog vous aident à créer et à gérer des métadonnées communes sur les éléments de données dans un emplacement unique. Les tags sont associés à l'élément de données, ce qui signifie qu'il est visible dans le système Data Catalog. À l'aide de cette fonctionnalité, vous pouvez également créer d'autres applications qui utilisent ces métadonnées contextuelles sur un actif de données et effectuer des actions supplémentaires.

Interagir avec Data Catalog

Vous pouvez accéder à Data Catalog à l'aide de Cloud Console, de l'interface de ligne de commande (CLI) gcloud et des API Data Catalog, ou en appelant l'API à l'aide des bibliothèques clientes cloud.

Étape suivante