Qu'est-ce que Data Catalog ?

Data Catalog est un service de gestion des métadonnées entièrement géré et évolutif qui fait partie de la gamme de produits d'analyse de données de Google Cloud.

Pourquoi avez-vous besoin d'un catalogue de données ?

Aujourd'hui, la plupart des organisations gèrent un nombre important et croissant d'éléments de données.

Les personnes concernées par les données (consommateurs, producteurs et administrateurs) au sein d'une organisation sont confrontées à un certain nombre de défis:

  • Rechercher des données pertinentes:

    • Les utilisateurs ne savent pas où sont stockées les données. pour parcourir les données.
    • Les consommateurs de données ne savent pas quelles données utiliser pour obtenir des insights, car la plupart des données ne sont pas bien documentées et, même si elles sont documentées, ne sont pas bien gérées.
    • Les données sont introuvables et sont souvent perdues lorsqu'elles ne résident que dans l'esprit des utilisateurs.
  • Comprendre les données:

    • Les données sont-elles à jour, conformes, validées et utilisées en production ?
    • Quel ensemble de données sur plusieurs ensembles en double est pertinent et à jour ?
    • Quelle est la relation entre un ensemble de données ?
    • Qui utilise les données et qui en est le propriétaire ?
    • Qui et quels processus transforment les données ?
  • Rendre les données utiles:

    • Les producteurs de données ne disposent pas d'un moyen efficace de transférer leurs données pour les consommateurs. En l'absence de libre-service, les consommateurs risquent de submerger les producteurs. Plusieurs ingénieurs de données ne peuvent pas fournir de données manuellement à des milliers d'analystes de données.

    • Le temps précieux est perdu si les consommateurs de données doivent déterminer comment demander l'accès aux données, le demander, attendre sans délai de réponse défini, faire remonter la demande et attendre encore.

Sans les bons outils, les défis ci-dessus constituent un obstacle majeur à l'utilisation efficace des données. Data Catalog fournit un emplacement centralisé qui permet aux organisations de:

  • Bénéficiez d'une vue unifiée afin de ne pas avoir à rechercher les bonnes données.
  • Enrichissez les données avec des métadonnées techniques et métier pour prendre des décisions basées sur les données et accélérer l'obtention d'insights.
  • Améliorez la gestion des données pour améliorer l'efficacité opérationnelle et la productivité.
  • Prendrepropriété les données afin d'améliorer la confiance à l'égard de celles-ci.

Utiliser Data Catalog

Vous pouvez interagir avec Data Catalog de deux manières :

  • Recherche des actifs de données auxquels vous avez accès
  • Ajout de tags à des actifs avec des métadonnées

En outre, Data Catalog peut exploiter les résultats d'une analyse Cloud Data Loss Prevention (DLP) pour identifier des données sensibles directement dans Data Catalog sous la forme de modèles de tag.

Fonctionnement de Data Catalog

Data Catalog peut cataloguer les métadonnées natives sur des éléments de données provenant des sources système Google Cloud suivantes:

  • Ensembles de données, tables et vues BigQuery
  • Sujets Pub/Sub
  • Services, bases de données et tables Dataproc Metastore

Vous pouvez également créer et gérer des entrées pour des types de ressources de données personnalisés à l'aide des API Data Catalog.

Une fois vos données répertoriées, vous pouvez ajouter vos propres métadonnées à ces éléments à l'aide de tags.

Métadonnées techniques et commerciales

Data Catalog gère deux types de métadonnées : les métadonnées techniques et les métadonnées commerciales. Pour comprendre la différence, consultez l'exemple d'entrée Data Catalog ci-dessous :

  • Métadonnées techniques : indiquées dans la section Détails de la table BigQuery ci-dessus. Elles proviennent du système de stockage sous-jacent où l'élément de données réside et inclut les éléments suivants :

    • Informations sur le projet, telles que le nom et l'ID
    • Nom et description de l'actif
    • Étiquettes des ressources Google Cloud
    • Nom du schéma et description des tables et vues BigQuery
  • Métadonnées commerciales : affichées sous Tags (1) ci-dessus, il s'agit des métadonnées générées par l'utilisateur appliquées à l'élément à l'aide de tags Data Catalog. Les métadonnées commerciales sont toujours associées à une entrée de métadonnées techniques.

Recherche et découverte

Data Catalog offre des fonctionnalités de recherche puissantes et structurées, ainsi qu'un filtrage basé sur des prédicats sur les métadonnées techniques et commerciales d'un élément de données. Vous devez avoir la capacité de lire les métadonnées d'un élément de données pour pouvoir le rechercher et le découvrir. Data Catalog n'indexe pas les données dans un élément de données, mais il indexe les métadonnées décrivant un élément.

Data Catalog contrôle certaines métadonnées telles que les tags générés par l'utilisateur, mais pour toutes les métadonnées provenant du système de stockage sous-jacent, Data Catalog est un service en lecture seule qui reflète les métadonnées et les autorisations fournies par le système de stockage sous-jacent. Les modifications apportées aux métadonnées natives d'un actif, telles que l'ajout, la suppression ou la mise à jour, peuvent être effectuées dans le système de stockage sous-jacent.

Pour un projet donné, Data Catalog catalogue automatiquement les éléments Google Cloud suivants:

  • Ensembles de données, tables, vues BigQuery
  • Sujets Pub/Sub
  • (Aperçu) Services, bases de données et tables Dataproc Metastore

En plus de répertorier les éléments dans les ID de projets pour lesquels vous avez accès aux métadonnées, Data Catalog peut répertorier des données stockées dans les projets BigQuery qui contiennent des ensembles de données publics.

Pour cataloguer les métadonnées de systèmes non-GCP de votre organisation, vous pouvez utiliser:

Tags

Il est difficile de documenter les actifs de données à grande échelle, en particulier lorsque les données sont utilisées par différents groupes au sein d'une organisation. Chaque groupe peut disposer de son propre ensemble de documentation pour décrire les actifs de données. Les modèles de tag Data Catalog vous aident à créer et à gérer des métadonnées communes sur les éléments de données dans un emplacement unique. Les tags sont associés à l'élément de données, ce qui signifie qu'il est visible dans le système Data Catalog. À l'aide de cette fonctionnalité, vous pouvez également créer d'autres applications qui utilisent ces métadonnées contextuelles sur un actif de données et effectuer des actions supplémentaires.

Interagir avec Data Catalog

Vous pouvez accéder à Data Catalog à l'aide de Cloud Console, de l'interface de ligne de commande (CLI) gcloud et des API Data Catalog, ou en appelant l'API à l'aide des bibliothèques clientes cloud.

Étape suivante