Présentation du catalogue Dataplex

Ce document décrit le catalogue Dataplex, qui fournit une plate-forme pour stocker, gérer et accéder à vos métadonnées.

Le catalogue Dataplex fournit un inventaire unifié pour les ressources Google Cloud, telles que BigQuery, et d'autres ressources, telles que les ressources sur site. Les métadonnées des ressources Google Cloud sont collectées automatiquement. Vous importez les métadonnées des ressources tierces dans le catalogue Dataplex.

Le catalogue Dataplex vous permet d'enrichir votre inventaire avec des métadonnées métier et techniques supplémentaires pour capturer le contexte et les informations concernant vos ressources. Avec le catalogue Dataplex, vous pouvez rechercher et découvrir vos données dans l'organisation et activer la gouvernance des données sur vos éléments de données.

Cas d'utilisation

Vous pouvez utiliser le catalogue Dataplex pour:

  • Découvrez et comprenez vos données. Dataplex Catalog offre une visibilité sur vos ressources de données dans l'organisation. Il vous permet de trouver des ressources pertinentes pour vos besoins en termes de consommation de données. Il fournit un contexte pour les ressources de données, ce qui vous aide à comprendre si elles sont adaptées aux besoins de vos consommateurs.

  • Activez la gouvernance et la gestion des données. Dataplex Catalog fournit des métadonnées qui peuvent informer et alimenter vos fonctionnalités de gouvernance et de gestion des données.

  • Mettez à jour un dépôt extensible et complet pour vos métadonnées. Le catalogue Dataplex stocke les métadonnées qui sont automatiquement collectées à partir de vos ressources Google Cloud et vous permet d'y accéder. Vous pouvez intégrer vos propres métadonnées à partir de systèmes autres que Google Cloud. Vous pouvez enrichir toutes les métadonnées avec des annotations de métadonnées commerciales et techniques supplémentaires.

Fonctionnement du catalogue Dataplex

Le catalogue Dataplex repose sur les concepts suivants:

  • Entrée: une entrée représente un élément de données. La plupart des métadonnées sont décrites par les aspects d'une entrée. Cette méthode est semblable aux entrées dans Data Catalog. Pour en savoir plus, consultez la section Entrées.

  • Aspect: ensemble de champs de métadonnées associés dans une entrée. Un aspect peut être interprété soit comme un élément de base d'une entrée, soit comme des métadonnées supplémentaires à celle-ci. Cette méthode est semblable aux tags dans Data Catalog, mais certains aspects sont stockés dans les entrées et non en tant que ressources autonomes. Pour en savoir plus, consultez la section Aspects.

  • Type d'aspect: modèle réutilisable pour les aspects. Chaque aspect est une instance d'un type d'aspect. Cette méthode est semblable aux modèles de tag dans Data Catalog. Pour en savoir plus, consultez Types d'aspects.

  • Groupe d'entrées: un groupe d'entrées est un conteneur qui sert d'unité de gestion pour les entrées. Par exemple, utilisez un groupe d'entrées pour configurer le contrôle des accès IAM, l'attribution du projet ou l'emplacement des entrées du groupe d'entrées. Cette opération est semblable aux groupes d'entrées dans Data Catalog. Pour en savoir plus, consultez la section Groupes d'entrées.

  • Type d'entrée: il s'agit d'un modèle permettant de créer des entrées. Il établit les éléments de métadonnées essentiels, décrits comme une liste d'aspects requis pour les entrées de ce type. Pour en savoir plus, consultez la section Types d'entrées.

    Entrées et groupes d'entrées
    Figure 1. Entrées et groupes d'entrées
    Types d'aspects et types d'entrées
    Figure 2 : Types d'aspects et types d'entrées

Voici quelques cas d'utilisation du catalogue Dataplex:

  • En tant qu'analyste de données ou analyste commercial, vous pouvez rechercher des entrées dans l'organisation et explorer les métadonnées associées à ces entrées. Pour en savoir plus, consultez la section Rechercher des éléments de données.
  • En tant que propriétaire ou gouverneur de données, vous pouvez capturer des métadonnées techniques et métier supplémentaires en annotant vos entrées avec des aspects. Pour en savoir plus, consultez Gérer les aspects et enrichir les métadonnées.
  • En tant que propriétaire de données ou gouverneur de données, vous pouvez apporter de la cohérence dans vos métadonnées en définissant des normes d'annotation (à l'aide de types d'aspects) et d'entrées personnalisées (à l'aide de types d'entrées). Pour en savoir plus, consultez Gérer les aspects et enrichir les métadonnées.
  • En tant qu'ingénieur de données, vous pouvez disposer d'un inventaire unifié pour vos ressources, y compris les ressources Google Cloud et les ressources de systèmes tiers. Les ressources Google Cloud sont automatiquement collectées par le catalogue Dataplex, et les ressources autres que Google Cloud sont collectées par vous. Pour en savoir plus, consultez la page Gérer les entrées et ingérer des sources personnalisées.

Si vous utilisez déjà Data Catalog, veuillez noter les points suivants:

  • Les entrées personnalisées, le contexte de présentation et les groupes d'entrées que vous avez créés dans Data Catalog sont disponibles dans Dataplex Catalog.
  • Les tags et les modèles de tag créés dans Data Catalog ne sont pas disponibles dans Dataplex.
  • Lorsque vous recherchez des éléments de données dans le catalogue Dataplex, les métadonnées qui ont été créées directement dans le catalogue Dataplex et celles importées depuis Data Catalog dans le catalogue Dataplex sont incluses.
  • Lorsque vous recherchez des éléments de données dans Data Catalog, seules les métadonnées créées dans Data Catalog sont incluses.
  • Les descriptions de groupes d'entrées dans Data Catalog dépassant 1 024 caractères sont tronquées à 1 024 caractères dans le catalogue Dataplex.

Comparaison entre le catalogue Dataplex et Data Catalog

Dataplex Catalog permet de gérer vos métadonnées dans Dataplex. Il est doté d'un espace de stockage de métadonnées distinct et d'un nouvel ensemble de méthodes API qui sont intégrées à l'API Dataplex.

Le catalogue Dataplex comprend les principales fonctionnalités suivantes:

  • Métamodèle plus robuste

    • Entrées saisies Vous pouvez appliquer des normes de métadonnées minimales en définissant le contenu de métadonnées requis pour les entrées personnalisées
    • Métamodèle configurable par l'utilisateur pour les entrées personnalisées, contribuant à rendre l'ingestion personnalisée plus robuste, et à améliorer la cohérence et la exhaustivité des métadonnées personnalisées.
    • Compatibilité avec une plus grande variété et une plus grande complexité de métadonnées, y compris la prise en charge de structures d'imbrication telles que des listes, des cartes et des tableaux.
  • Évolutivité améliorée, y compris la possibilité d'interagir avec toutes les métadonnées associées à une entrée via des opérations CRUD atomiques uniques et la possibilité d'extraire plusieurs annotations de métadonnées associées aux réponses de recherche ou de liste.

Le tableau suivant compare les fonctionnalités de Dataplex Catalog et Data Catalog:

Comparaison entre Dataplex Catalog et Data Catalog
Sélection Catalogue Dataplex Data Catalog
Sources Google Cloud compatibles Toutes les sources décrites dans la section Sources Google Cloud compatibles de ce document. Toutes les sources décrites dans la section Entrées et groupes d'entrées.
Ingestion de sources personnalisées

Ingestion dans des entrées personnalisées avec une structure gouvernée, définie par les types d'entrées.

Les entrées personnalisées et les groupes d'entrées Data Catalog sont disponibles dans le catalogue Dataplex sous le type d'entrée generic.

Ingestion dans des entrées personnalisées génériques.
Enrichissement des métadonnées Le contexte des métadonnées des entrées est capturé à l'aide d'aspects et de types d'aspects. Le contexte des métadonnées des entrées est capturé à l'aide de tags et de modèles de tag.
Rechercher La recherche est effectuée sur les éléments suivants :
  • Toutes les sources Google Cloud décrites dans la section Sources Google Cloud compatibles
  • Entrées personnalisées créées dans le catalogue Dataplex
  • Aspects créés dans le catalogue Dataplex
  • Entrées personnalisées créées dans Data Catalog et importées dans Dataplex Catalog

Les résultats de la recherche n'incluent que les ressources appartenant au même périmètre VPC-SC que le projet dans lequel la recherche est effectuée. Lorsque vous utilisez la console Google Cloud, il s'agit du projet sélectionné dans la console.

La recherche est effectuée sur les éléments suivants :
  • Toutes les sources Google Cloud décrites dans la section Entrées et groupes d'entrées
  • Entrées personnalisées créées dans Data Catalog
  • Tags créés dans Data Catalog

Le tableau suivant décrit la correspondance entre les ressources de catalogue Dataplex et les ressources Data Catalog:

Mappage entre les ressources Dataplex Catalog et Data Catalog
Ressource de catalogue Dataplex Ressource Data Catalog Description
Type d'aspect (global) Modèle de tag public Les modèles de tag sont des ressources régionales. Toutefois, vous pouvez les utiliser pour créer des tags dans plusieurs régions. Les modèles de tag correspondent aux types d'aspect global dans le catalogue Dataplex.
Aspect facultatif Tag public Les tags publics dans Data Catalog correspondent à des aspects facultatifs dans Dataplex Catalog.
Groupe d'entrées Groupe d'entrées Pour les sources Google Cloud, des groupes d'entrées système tels que @bigquery sont établis par projet dans le catalogue Dataplex.
Aspects requis pour l'entrée personnalisée Entrée personnalisée

Data Catalog et Dataplex Catalog partagent des concepts similaires pour les entrées personnalisées.

Les propriétés d'entrée standards sont modélisées en tant qu'aspects obligatoires dans le catalogue Dataplex.

Aspects des demandes d'entrée au système Entrée système (Google Cloud) Les métadonnées décrivant les entités intégrées, telles que Schema pour les tables BigQuery, sont capturées dans les aspects requis des types d'aspect définis par le système.

Pour en savoir plus sur les fonctionnalités disponibles dans Data Catalog et non compatibles avec le catalogue Dataplex, consultez la section Fonctionnalités non compatibles avec le catalogue Dataplex de ce document.

Sources Google Cloud compatibles

Les métadonnées des sources Google Cloud suivantes sont automatiquement ingérées dans le catalogue Dataplex:

  • Places de marché et fiches Analytics Hub
  • Ensembles de données, tables, modèles, routines, connexions et ensembles de données associés BigQuery
  • Instances, clusters et tables Bigtable (y compris les informations sur les familles de colonnes)
  • Instances, bases de données, schémas, tables et vues Cloud SQL
  • Services, bases de données et tables Dataproc Metastore
  • Sujets Pub/Sub
  • Instances, bases de données, tables et vues Spanner
  • Modèles Vertex AI, ensembles de données

Contraintes liées au projet et à l'emplacement

Les ressources de catalogue Dataplex sont hébergées dans différents projets et emplacements. Les limites suivantes s'appliquent :

  • Centre d'évaluation :

    • L'emplacement d'une entrée doit correspondre à l'emplacement du type d'entrée ou le type d'entrée doit être global.
    • Un aspect ajouté à une entrée doit être basé sur un type d'aspect stocké au même emplacement que l'entrée ou le type d'aspect doit être global.
    • Un type d'entrée doit être composé de types d'aspect stockés dans le même emplacement que le type d'entrée.
  • Projet :

    • Si un type d'entrée fait référence à des types d'aspect personnalisés, ceux-ci doivent se trouver au même emplacement et au même projet que le type d'entrée.

Fonctionnalités non compatibles avec le catalogue Dataplex

Les fonctionnalités suivantes, disponibles dans Data Catalog, ne le sont pas dans Dataplex Catalog:

  • La notion d'aspect privé et de types d'aspects n'est pas prise en charge dans le catalogue Dataplex. L'accès aux aspects est régi par les autorisations associées à l'entrée qui les contient. Pour en savoir plus, consultez la page Rôles IAM Dataplex.
  • La recherche de tags avec stratégie n'est pas disponible dans la recherche dans le catalogue Dataplex. Par conséquent, les prédicats policytag et policytagid ne fonctionnent pas dans la recherche dans le catalogue Dataplex.
  • Pour les entrées personnalisées Data Catalog importées dans Dataplex Catalog, les autorisations IAM existantes pour vos métadonnées actuelles ne sont pas automatiquement propagées aux métadonnées copiées. Vous devez configurer explicitement les autorisations IAM pour les métadonnées copiées avant de les utiliser.
  • Il n'est pas possible d'envoyer les résultats des tâches de protection des données sensibles à Dataplex Catalog.
  • Vous ne pouvez pas répertorier les types d'entrées et d'aspects de plusieurs projets à l'aide de l'API. Vous ne pouvez limiter la requête de liste qu'à un projet.
  • Vous ne pouvez pas joindre de termes de glossaire commercial aux colonnes d'entrées Dataplex.
  • Vous ne pouvez pas modifier la liste des types d'aspect requis dans un type d'entrée après avoir créé le type d'entrée.

Tarification

Dataplex utilise le SKU de stockage de métadonnées pour facturer le stockage des métadonnées. Pour en savoir plus, consultez les tarifs Dataplex.

L'utilisation des éléments suivants est gratuite:

  • Créer et gérer des ressources de catalogue Dataplex
  • Rechercher des appels d'API pour le catalogue Dataplex
  • Requêtes de recherche effectuées sur la page "Catalogue Dataplex" de la console Google Cloud

Étapes suivantes