Ce document décrit Dataplex Catalog, qui fournit une plate-forme permettant de stocker, de gérer et d'accéder à vos métadonnées.
Le catalogue Dataplex fournit un inventaire unifié aux ressources Google Cloud, telles que BigQuery, et à d'autres ressources, telles que des ressources sur site. Les métadonnées des ressources Google Cloud sont collectées automatiquement, et vous intégrez les métadonnées de ressources tierces Catalogue Dataplex.
Le catalogue Dataplex vous permet d'enrichir votre inventaire avec des des métadonnées métier et techniques pour capturer le contexte et les informations concernant votre ressources. Avec Dataplex Catalog, vous pouvez rechercher et découvrir vos données dans l'ensemble de l'organisation, et gérer la gouvernance des données sur vos éléments de données.
Cas d'utilisation
Vous pouvez utiliser Dataplex Catalog pour effectuer les opérations suivantes :
Découvrez et comprenez vos données. Dataplex Catalog offre une visibilité sur vos ressources de données dans l'ensemble de l'organisation. Il vous permet de trouver des ressources adaptées à vos besoins de consommation de données. Elle fournit du contexte pour les ressources de données, ce qui vous aide à comprendre l'adéquation des données des ressources pour répondre aux besoins de vos consommateurs de données.
Activez la gouvernance et la gestion des données. Le catalogue Dataplex fournit des métadonnées qui peuvent alimenter et optimiser vos fonctionnalités de gouvernance et de gestion des données.
Gérez un dépôt extensible et complet pour vos métadonnées. Le catalogue Dataplex stocke et donne accès aux métadonnées est automatiquement extraite de vos ressources Google Cloud. Vous pouvez intégrer vos propres métadonnées à partir de systèmes autres que Google Cloud. Vous pouvez tout enrichir avec des annotations de métadonnées métier et techniques supplémentaires.
Fonctionnement du catalogue Dataplex
Dataplex Catalog repose sur les concepts suivants :
Entrée: une entrée représente un élément de données. La plupart des métadonnées sont décrites par des aspects dans une entrée. Cela est similaire à entrées dans Data Catalog. Pour en savoir plus, consultez la section Entrées.
Aspect : ensemble de champs de métadonnées associés dans une entrée. Un aspect peut être interprété soit comme un élément de base d'une entrée, soit comme des métadonnées supplémentaires. Cela ressemble aux tags dans Data Catalog, mais les aspects sont stockés dans des entrées et non en tant que ressources autonomes. Pour en savoir plus, consultez la section Aspects.
Type d'aspect: modèle réutilisable pour les aspects. Toutes les aspect est une instance d'un type d'aspect. Cela ressemble aux modèles de tags dans Data Catalog. Pour en savoir plus, consultez Types d'aspects.
Groupe d'entrées: il s'agit d'un conteneur qui héberge les entrées utilisées de gestion pour ces entrées. Par exemple, utilisez un groupe d'entrées pour configurer le contrôle des accès IAM, l'attribution de projets ou l'emplacement des entrées du groupe d'entrées. Cela ressemble aux groupes d'entrées dans Data Catalog. Pour en savoir plus, consultez la section Groupes d'entrées.
Type d'entrée : un type d'entrée est un modèle permettant de créer des entrées. Il établit les éléments de métadonnées essentiels, décrits sous la forme d'une liste de les aspects requis pour les entrées de ce type. Pour en savoir plus, consultez la section Types d'entrées.
Voici quelques cas d'utilisation du catalogue Dataplex:
- En tant qu'analyste de données ou analyste commercial, vous pouvez rechercher des entrées dans l'ensemble de l'organisation et explorer les métadonnées qui leur sont associées. Pour Pour en savoir plus, consultez Rechercher des éléments de données.
- En tant que propriétaire ou gestionnaire de données, vous pouvez capturer des métadonnées techniques et métier supplémentaires en annotant vos entrées avec des aspects. Pour plus d'informations, consultez Gérer les aspects et enrichir les métadonnées.
- En tant que propriétaire ou administrateur des données, vous pouvez apporter de la cohérence métadonnées en définissant les normes d'annotation (en utilisant les types d'aspects) et des entrées personnalisées (à l'aide de types d'entrées). Pour en savoir plus, consultez Gérer les aspects et enrichir les métadonnées.
- En tant qu'ingénieur de données, vous pouvez disposer d'un inventaire unifié de vos ressources, y compris des ressources Google Cloud et des ressources provenant de systèmes tiers. Les ressources Google Cloud sont collectées automatiquement par Dataplex Catalog, et les ressources autres que Google Cloud sont collectées par vous. Pour en savoir plus, consultez Gérez les entrées et ingérez des sources personnalisées.
Si vous utilisez déjà Data Catalog, veuillez noter les points suivants:
- Entrées personnalisées, contexte de l'aperçu et groupes d'entrées que vous avez créés Mise à disposition de Data Catalog dans le catalogue Dataplex.
- Les tags et les modèles de tags créés dans Data Catalog ne sont pas disponibles dans le catalogue Dataplex.
- Lorsque vous recherchez des éléments de données dans Dataplex Catalog, les métadonnées créées directement dans Dataplex Catalog et celles importées de Data Catalog dans Dataplex Catalog sont incluses.
- Lorsque vous recherchez des éléments de données dans Data Catalog, seuls les les métadonnées créées dans Data Catalog sont incluses.
- Les descriptions des groupes d'entrées dans Data Catalog dépassant 1 024 caractères sont tronqués à 1 024 caractères Catalogue Dataplex.
Comparaison entre le catalogue Dataplex et Data Catalog
Dataplex Catalog vous permet de gérer vos métadonnées dans Dataplex. Il inclut un espace de stockage de métadonnées distinct un nouvel ensemble de méthodes API qui sont intégrées à l'API Dataplex.
Le catalogue Dataplex comprend les principales fonctionnalités suivantes:
Métamodèle plus robuste
- Entrées saisies Vous pouvez appliquer des normes de métadonnées minimales en définissant contenu de métadonnées requis pour les entrées personnalisées
- Méta-modèle configurable par l'utilisateur pour les entrées personnalisées, qui permet de rendre l'ingestion personnalisée plus robuste et d'améliorer la cohérence et la complétude des métadonnées personnalisées.
- Compatibilité avec une plus grande variété et une plus grande complexité de métadonnées, y compris la compatibilité pour l'imbrication de structures telles que des listes, des cartes et des tableaux.
Amélioration de l'évolutivité, y compris la possibilité d'interagir avec toutes les métadonnées associées à une entrée via des opérations CRUD atomiques uniques et la possibilité d'extraire plusieurs annotations de métadonnées associées dans les réponses de recherche ou de liste.
Le tableau suivant compare les fonctionnalités de Dataplex Catalog et de Data Catalog :
Caractéristique | Dataplex Catalog | Data Catalog |
---|---|---|
Sources Google Cloud compatibles | Toutes les sources décrites dans la section Sources Google Cloud compatibles de ce document. | Toutes les sources décrites dans la section Entrées et groupes d'entrées. |
Ingestion de sources personnalisées | Ingestion dans des entrées personnalisées avec une structure gérée, définie par les types d'entrées. Les entrées personnalisées et les groupes d'entrées Data Catalog sont disponibles dans
Catalogue Dataplex sous le type d'entrée | Ingestion dans des entrées personnalisées génériques. |
Enrichissement des métadonnées | Le contexte des métadonnées des entrées est capturé à l'aide d'aspects et de types d'aspects. | Le contexte des métadonnées des entrées est capturé à l'aide de tags et de modèles de tags. |
Recherche | La recherche est effectuée sur les éléments suivants:
Les résultats de recherche n'incluent que les ressources appartenant au même périmètre VPC-SC que le projet pour lequel la recherche est effectuée. Lorsque vous utilisez la console Google Cloud, il s'agit du projet sélectionné dans console. Notez que, pour rechercher des entrées, vous devez disposer d'au moins l'un des éléments Rôles IAM pour le catalogue Dataplex sur le projet utilisé pour la recherche. Les autorisations sur les résultats de recherche sont coché indépendamment du projet sélectionné. |
La recherche est effectuée sur les éléments suivants:
|
Le tableau suivant décrit comment les ressources du catalogue Dataplex correspondent aux ressources de Data Catalog :
Ressource du catalogue Dataplex | Ressource Data Catalog | Description |
---|---|---|
Type d'aspect (global ) |
Modèle de tag public | Les modèles de tags sont des ressources régionales. Toutefois, vous pouvez les utiliser pour créer
dans plusieurs régions. Les modèles de tags correspondent aux types d'aspects global dans le catalogue Dataplex. |
Aspect facultatif | Tag public | Les tags publics dans Data Catalog correspondent à des aspects facultatifs dans Catalogue Dataplex. |
Groupe d'entrées | Groupe d'entrées | Pour les sources Google Cloud, les groupes d'entrées système tels que @bigquery sont définis par projet dans le catalogue Dataplex. |
Aspects requis pour l'entrée personnalisée | Entrée personnalisée | Data Catalog et le catalogue Dataplex partagent des concepts similaires pour les entrées personnalisées. Les propriétés d'entrée standards sont modélisées en tant qu'aspects obligatoires dans le catalogue Dataplex. |
Aspects requis pour l'entrée dans le système | Entrée système (Google Cloud) | Métadonnées décrivant des entités intégrées, telles que Schema pour
dans les tables BigQuery, est capturée dans les aspects requis
types d'aspects définis par le système. |
Pour en savoir plus sur les fonctionnalités disponibles dans et ne sont pas compatibles avec Dataplex Catalog. consultez la page Fonctionnalités non disponibles dans le catalogue Dataplex de ce document.
Sources compatibles
Les métadonnées des sources Google Cloud suivantes sont automatiquement ingérées dans le catalogue Dataplex:
- Échanges et fiches Analytics Hub
- les ensembles de données, tables, modèles, routines, connexions et ensembles de données associés
- Instances, clusters et tables Bigtable (y compris les détails des familles de colonnes)
- Instances, bases de données, schémas, tables et vues Cloud SQL (consultez la page Activer l'intégration Cloud SQL)
- Services, bases de données et tables Dataproc Metastore
- Sujets Pub/Sub
- Instances, bases de données, tables et vues Spanner
- Modèles, ensembles de données, groupes de caractéristiques, vues de caractéristiques et instances de boutiques en ligne Vertex AI
Pour importer les métadonnées d'une source tierce dans le catalogue Dataplex, vous pouvez utiliser pipeline de connectivité gérée.
Contraintes liées au projet et à l'emplacement
Les ressources du catalogue Dataplex sont hébergées dans différents projets et les emplacements. Les limites suivantes s'appliquent :
Lieu :
- L'emplacement d'une entrée doit correspondre
à l'emplacement du type d'entrée,
ou le type d'entrée doit être
global
. - Un aspect ajouté à une entrée doit être basé sur un type d'aspect stocké
au même emplacement que l'entrée, ou le type d'aspect doit être
global
. - Un type d'entrée doit être composé de types d'aspects stockés au même emplacement que le type d'entrée.
- L'emplacement d'une entrée doit correspondre
à l'emplacement du type d'entrée,
ou le type d'entrée doit être
Projet :
- Si un type d'entrée fait référence à des types d'aspect personnalisés, ces types d'aspect doivent se trouver au même emplacement et dans le même projet que le type d'entrée.
Fonctionnalités non compatibles avec le catalogue Dataplex
Les fonctionnalités suivantes, disponibles dans Data Catalog, ne sont pas pris en charge dans le catalogue Dataplex:
- La notion d'aspects et de types d'aspects privés n'est pas prise en charge dans le catalogue Dataplex. L'accès aux aspects est régi par les autorisations associées à l'entrée qui les contient. Pour en savoir plus, consultez la page Rôles IAM Dataplex.
- La recherche de tags avec stratégie n'est pas disponible dans le catalogue Dataplex
rechercher ; Par conséquent, les prédicats
policytag
etpolicytagid
ne fonctionnent pas. dans la recherche dans le catalogue Dataplex. - Pour les entrées personnalisées Data Catalog importées dans le catalogue Dataplex, les autorisations IAM existantes pour vos métadonnées actuelles ne sont pas automatiquement propagées aux métadonnées copiées. Vous devez configurer explicitement les autorisations IAM pour les métadonnées copiées avant de les utiliser.
- Envoyer les résultats du job de protection des données sensibles à Le catalogue Dataplex n'est pas compatible.
- Vous ne pouvez pas lister les types d'entrées et les types d'aspects dans les projets à l'aide de l'API. Vous ne pouvez limiter la requête de liste qu'à un projet.
- Vous ne pouvez pas joindre de glossaire professionnel dans les colonnes d'entrées Dataplex.
- Une fois le type d'entrée créé, vous ne pouvez plus modifier la liste des types d'aspects obligatoires.
- Pour les entrées créées directement dans le catalogue Dataplex, la traçabilité des données affiche les événements de traçabilité dans la console Google Cloud mais n'affiche pas d'informations détaillées sur la source, la cible ou le processus. De plus, la traçabilité des données n'affiche pas les aspects des entrées du console Google Cloud.
Tarifs
Dataplex utilise le SKU de stockage de métadonnées pour facturer le stockage de métadonnées. Pour en savoir plus, consultez les tarifs de Dataplex.
L'utilisation des éléments suivants est gratuite :
- Créer et gérer des ressources du catalogue Dataplex
- Appels d'API de recherche pour Dataplex Catalog
- Requêtes de recherche effectuées sur la page Dataplex Catalog dans la console Google Cloud
Étape suivante
- Découvrez comment rechercher des éléments de données dans Dataplex Catalog.
- Découvrez comment gérer les composants et enrichir les métadonnées.
- Découvrez comment gérer les entrées et ingérer des sources personnalisées.