Présentation de Data Catalog

La fonctionnalité Data Catalog de Dataplex permet d'effectuer un inventaire central des éléments de données d'une organisation. Data Catalog automatiquement catalogue les métadonnées provenant de sources Google Cloud telles que BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable et plus encore. Data Catalog indexe aussi les métadonnées des tables et des ensembles de fichiers depuis Cloud Storage jusqu'à la découverte.

Vous pouvez découvrir des données grâce aux fonctionnalités gérées de Dataplex à l'échelle de l'organisation de recherche de métadonnées. Vous pouvez enrichir davantage les métadonnées avec des le contexte commercial, et permettre le suivi de la traçabilité, le profilage des données, la qualité des données, des vérifications et des fonctionnalités de contrôle des accès.

Avec Data Catalog, les entreprises peuvent obtenir des données de meilleure qualité la découverte, la gestion des métadonnées et la gouvernance.

Pourquoi avez-vous besoin de Data Catalog ?

Aujourd'hui, la plupart des entreprises gèrent un nombre important et croissant d'éléments de données.

Les personnes concernées par les données (utilisateurs, producteurs et administrateurs) au sein d'une les entreprises sont confrontées à de multiples défis:

  • Rechercher des données pertinentes :

    • Les consommateurs de données ne connaissent pas l'emplacement ni l'origine des données. Ils doivent naviguer dans les « marécages » de données.
    • Les consommateurs de données ne savent pas quelles données utiliser pour obtenir des insights, car la plupart d'entre elles ne sont pas bien documentées et, même si elles le sont, ne sont pas bien gérées.
    • Les données sont introuvables et sont souvent perdues lorsqu'elles ne résident que dans l'esprit des utilisateurs.
  • Comprendre les données :

    • Les données sont-elles à jour, nettoyées, validées et approuvées pour une utilisation en production ?
    • Parmi plusieurs ensembles en double, quel jeu de données est pertinent et à jour ?
    • Quel est le lien entre un jeu de données et un autre ?
    • Qui utilise les données et qui en est le propriétaire ?
    • Qui et quels processus transforment les données ?
  • Rendre les données utiles :

    • Les producteurs de données ne disposent pas d'un moyen efficace de transférer leurs données aux consommateurs. En l'absence de libre-service, les consommateurs risquent de submerger les producteurs. Plusieurs ingénieurs de données ne peuvent pas fournir de données manuellement à des milliers d'analystes de données.

    • Les consommateurs perdent un temps précieux à savoir comment les demander. l’accès aux données, attendre sans temps de réponse défini, escalader et attendre à nouveau.

Sans les bons outils, les défis deviennent un obstacle majeur à l'utilisation efficace des données. Data Catalog fournit une interface qui permet aux organisations d'effectuer les opérations suivantes:

  • bénéficier d'une vue unifiée afin de réduire les difficultés liées à la recherche des données appropriées ;
  • Facilitez la prise de décision basée sur les données et accélérez la génération d'insights en enrichissant les données avec des métadonnées techniques et métier.
  • améliorer la gestion des données pour améliorer l'efficacité opérationnelle et la productivité ;
  • revendiquer la propriété des données pour améliorer la confiance à l'égard de celles-ci.

Fonctions Data Catalog

Data Catalog fournit trois fonctions principales:

  • Rechercher des entrées de données auxquelles vous avez accès
  • Ajouter des tags de métadonnées aux entrées de données
  • Garantir la sécurité au niveau des colonnes pour les tables BigQuery

De plus, Data Catalog peut s'appuyer sur les résultats d'une Analyse de la protection des données sensibles pour identifier les données sensibles directement dans Data Catalog, sous la forme de modèles de tag.

Fonctionnement de Data Catalog

Data Catalog peut cataloguer des métadonnées d'éléments à partir de différents systèmes Google Cloud.

Vous pouvez également utiliser les API Data Catalog pour intégrer des sources de données personnalisées.

Une fois vos données cataloguées, vous pouvez ajouter vos propres métadonnées à ces éléments à l'aide de tags.

Data Catalog découvre les métadonnées à partir des données Google Cloud
  telles que BigQuery, Pub/Sub
  Dataproc Metastore et Cloud Storage, ainsi que
  sources de données hors cloud telles que Hive et Oracle.
Figure 1. Data Catalog lit les métadonnées des services Google Cloud et personnalisées.

Métadonnées Data Catalog

Data Catalog gère deux types de métadonnées : les métadonnées techniques et les métadonnées commerciales. Pour en savoir plus sur les métadonnées, consultez la page Métadonnées Data Catalog.

Recherche et découverte

Data Catalog propose une fonctionnalité de recherche performante basée sur des prédicats Expérience des métadonnées techniques et métier associées à une entrée de données Toi doit avoir les autorisations nécessaires pour lire les métadonnées d'une entrée de données afin que vous puissiez appliquer la recherche et la découverte aux métadonnées. Data Catalog n'inclut pas d'indexer les données dans une entrée de données. Data Catalog indexe uniquement Métadonnées qui décrivent un élément.

Data Catalog contrôle certaines métadonnées, telles que les tags générés par l'utilisateur. Pour toutes les métadonnées provenant du système de stockage sous-jacent, Data Catalog est un service en lecture seule qui reflète les métadonnées et les autorisations fournies par le système de stockage sous-jacent. Vous pouvez apporter des modifications dans le système de stockage sous-jacent pour ajouter, mettre à jour ou supprimer les métadonnées d'une entrée.

Pour en savoir plus sur la recherche dans Data Catalog, consultez Recherchez des éléments de données avec Data Catalog.

Catalogage automatique des éléments

Pour un projet donné, Data Catalog répertorie automatiquement les éléments Google Cloud suivants :

  • Ensembles de données associés à Analytics Hub
  • Ensembles de données, tables, modèles, routines et connexions BigQuery
  • Instances, clusters et tables Bigtable (y compris les informations sur les familles de colonnes)
  • Lacs, zones, tables et ensembles de fichiers Dataplex
  • Services, bases de données et tables Dataproc Metastore
  • Sujets Pub/Sub
  • Instances, bases de données, tables et vues Spanner
  • Modèles Vertex AI, ensembles de données Ressources Vertex AI Feature Store

En plus de cataloguer les éléments associés aux ID des projets pour lesquels vous avez accès aux métadonnées, Data Catalog peut cataloguer les données stockées dans les projets BigQuery. contenant des ensembles de données publics.

Cataloguer les éléments autres que Google Cloud

Pour cataloguer des métadonnées provenant de systèmes autres que Google Cloud dans votre organisation, vous pouvez utiliser la classe suivantes:

Accéder à Data Catalog

Vous pouvez accéder aux fonctionnalités de Data Catalog à l'aide des éléments suivants:

Étape suivante