Passer de Data Catalog au catalogue Dataplex

Si vous utilisez Data Catalog, vous pouvez transférer votre contenu et votre utilisation de Data Catalog vers le catalogue Dataplex en suivant les étapes décrites dans ce document.

Si vous ne connaissez pas encore le catalogue, nous vous invitons à commencer par le catalogue Dataplex en le configurant comme catalogue par défaut.

Ce document est destiné aux administrateurs et aux responsables des données.

Dataplex Catalog dispose d'une nouvelle interface Web et d'une nouvelle API. La transition vers le catalogue Dataplex permet à vos charges de travail et utilisateurs existants et futurs de bénéficier de ses fonctionnalités améliorées. Pour en savoir plus, consultez la page Présentation de Dataplex Catalog.

Pour comparer Dataplex Catalog et Data Catalog, consultez Dataplex Catalog par rapport à Data Catalog.

Avant de commencer la transition, consultez les fonctionnalités non compatibles avec le catalogue Dataplex.

Présentation de la transition

La page Gérer la transition vers Dataplex de la console Google Cloud fournit un point d'accès unique pour gérer la transition.

Cette section décrit les différents scénarios de transition et décrit le processus de transition pour chacun d'eux.

Si vous n'avez pas de métadonnées personnalisées dans Data Catalog ou si vous n'avez jamais utilisé Data Catalog

Si vous utilisez Data Catalog et que vous ne disposez pas de métadonnées personnalisées, telles que des tags, des modèles de tags, des entrées personnalisées ou des groupes d'entrées, ou si vous n'avez jamais utilisé Data Catalog, effectuez la transition en définissant le catalogue Dataplex comme votre UI de catalogue par défaut.

Si vous utilisez des métadonnées personnalisées Data Catalog ou des charges de travail programmatiques

Si vous utilisez Data Catalog avec des métadonnées personnalisées (telles que des tags, des modèles de tags, des entrées personnalisées ou des groupes d'entrées), Dataplex peut importer automatiquement ces métadonnées personnalisées dans le catalogue Dataplex en tant que read-only. Pour activer cette fonctionnalité, vous devez modifier la configuration, comme indiqué dans la phase préparatoire.

La deuxième phase est la phase de transfert, au cours de laquelle l'état actif (read-write) de vos métadonnées personnalisées est déplacé vers le catalogue Dataplex. Au cours de cette phase, vous devez également mettre à jour toutes les charges de travail programmatiques (telles que les API, les bibliothèques clientes, les modules Terraform et les commandes Google Cloud CLI) pour interagir avec le catalogue Dataplex.

Vous trouverez ci-dessous des informations plus détaillées sur chaque phase du processus de transition:

  1. Phase préparatoire: effectuez les tâches de configuration nécessaires pour que le contenu de Data Catalog soit disponible simultanément dans Dataplex Catalog en tant que read-only. Au cours de cette phase, Data Catalog reste la source faisant autorité pour le contenu de vos métadonnées.

    La phase préparatoire comprend les tâches suivantes:

    1. Rendre les modèles de tags privés Data Catalog publics.
    2. Activez les modèles de tags et les tags pour que les métadonnées soient disponibles simultanément dans le catalogue Dataplex.
    3. Configurez les autorisations IAM du catalogue Dataplex pour vos métadonnées personnalisées.

    Pour en savoir plus, consultez la section Phase préparatoire.

  2. Phase de transfert: déplacez l'utilisation de votre catalogue et l'état actif (read-write) de vos métadonnées personnalisées vers le catalogue Dataplex.

    La phase de transfert comprend les tâches suivantes:

    1. Définissez l'UI de catalogue par défaut sur le catalogue Dataplex.
    2. Transférez les métadonnées personnalisées Data Catalog vers le catalogue Dataplex.
    3. Mettre à jour les charges de travail programmatique

    Une fois la phase de transfert terminée, le catalogue Dataplex devient la source faisant autorité pour toutes vos métadonnées et vous n'avez plus besoin d'utiliser Data Catalog.

    Pour en savoir plus, consultez la section Phase de transfert.

Rôles requis

Pour obtenir les autorisations nécessaires pour passer de Data Catalog à Dataplex Catalog, accordez les rôles IAM suivants sur la ressource:

  • Mettre à jour des modèles de balise privés en modèles publics : Propriétaire de modèles de tag Data Catalog (roles/datacatalog.tagTemplateOwner)

    Ce rôle prédéfini contient l'autorisation datacatalog.tagTemplates.update, qui est requise pour définir les modèles de balises privées comme publics.

  • Activez les modèles et les tags de tags publics pour la disponibilité simultanée des métadonnées dans le catalogue Dataplex : Administrateur de configurations de migration DataCatalog (roles/datacatalog.migrationConfigAdmin).

    Ce rôle prédéfini contient l'autorisation datacatalog.migrationConfig.set, qui est requise pour activer les modèles de balises et les balises.

  • Définir l'UI de catalogue par défaut sur le catalogue Dataplex : Administrateur de configurations de migration DataCatalog (roles/datacatalog.migrationConfigAdmin)

    Ce rôle prédéfini contient l'autorisation datacatalog.migrationConfig.set, qui est requise pour définir l'expérience d'interface utilisateur du catalogue par défaut.

  • Transférer des modèles de tags publics Data Catalog vers le catalogue Dataplex: Propriétaire de modèles de tag Data Catalog (roles/datacatalog.tagTemplateOwner)

    Ce rôle prédéfini contient l'autorisation datacatalog.tagTemplates.update, qui est requise pour transférer des modèles de balises publiques.

  • Transférer des groupes d'entrées Data Catalog vers le catalogue Dataplex: Propriétaire du groupe d'entrées DataCatalog (roles/datacatalog.entryGroupOwner)

    Ce rôle prédéfini contient l'autorisation datacatalog.entryGroups.update, qui est nécessaire pour transférer des groupes d'entrées.

Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Phase préparatoire

Cette phase implique des tâches visant à rendre le contenu des métadonnées Data Catalog disponible simultanément dans le catalogue Dataplex, en mode read-only.

Voici les points clés à retenir pendant la phase préparatoire:

  • Data Catalog reste la source faisant autorité pour vos métadonnées personnalisées.
  • La page Recherche de Dataplex pointe vers la recherche Data Catalog par défaut, qui n'inclut que les métadonnées Data Catalog et non les métadonnées du catalogue Dataplex.
  • La recherche dans le catalogue Dataplex peut ne pas inclure tous les modèles de tags et tags publics Data Catalog tant que vous n'avez pas terminé la phase préparatoire.

Les groupes d'entrées personnalisées Data Catalog et leurs entrées sont déjà disponibles simultanément dans le catalogue Dataplex en tant que read-only. Lorsque vous activez les modèles et les tags de tags publics lors de la phase préparatoire, leur contenu est disponible en même temps dans le catalogue Dataplex en tant que read-only.

Le tableau suivant présente le mappage entre les ressources Data Catalog et les ressources du catalogue Dataplex lorsque les ressources Data Catalog sont disponibles simultanément dans le catalogue Dataplex:

Mappage entre Data Catalog et Dataplex Catalog
Ressource Data Catalog Ressource du catalogue Dataplex correspondante Description
Modèle de tag Type d'aspect (global)

Les modèles de tag dans Data Catalog sont des ressources régionales. Lorsque vous activez les modèles de tags, leur contenu est disponible simultanément en tant que types d'aspects globaux dans le catalogue Dataplex. Cela permet de conserver les références interrégionales entre les balises et les modèles de balises. Les définitions des types d'aspects globaux sont répliquées dans toutes les régions Google Cloud .

Les concepts standards tels que Schema sont représentés par des types d'aspects système fournis par Dataplex. Pour en savoir plus, consultez la section Catégories de types d'aspects.

Tag Aspect facultatif Lorsque vous activez les modèles de tags, leurs tags sont disponibles simultanément en tant qu'aspects facultatifs dans le catalogue Dataplex. Pour en savoir plus, consultez la section Catégories d'aspects.
Groupe d'entrées Groupe d'entrées Les groupes d'entrées pour les entrées système sont établis par projet et par région dans le catalogue Dataplex. Les groupes d'entrées créés dans Data Catalog sont disponibles simultanément dans le catalogue Dataplex.
Entrée personnalisée Entrée personnalisée Toutes les entrées personnalisées de Data Catalog sont disponibles simultanément en tant qu'entrées de GenericEntryType dans le catalogue Dataplex. Pour en savoir plus, consultez la section Catégories de types d'entrées.
Entrée système (Google Cloud) Aspect "Entrée système requise" Les métadonnées décrivant les entrées système, telles que Schema pour les tables BigQuery, sont capturées dans les aspects obligatoires des types d'aspects définis par le système.

Convertir des modèles de tags privés Data Catalog en modèles de tags publics

Le catalogue Dataplex n'est pas compatible avec le concept d'aspects privés (correspondant aux tags privés). Par conséquent, les tags et modèles de tags privés ne sont pas disponibles simultanément dans le catalogue Dataplex. Pour propager des modèles de tags et des tags privés dans le catalogue Dataplex, vous devez les rendre publics.

Avant de continuer, examinez la structure des modèles de tags privés pour vous assurer qu'elle et les métadonnées sont cohérentes avec la visibilité des tags publics.

Pour rendre publics des modèles de tags et des tags privés, procédez comme suit:

Console

  1. Dans la console Google Cloud , accédez à la page Catalogue Dataplex.

    Accéder au catalogue

  2. Cliquez sur Gérer la transition vers Dataplex.

  3. Cliquez sur l'onglet Modèles de tags privés.

  4. Cliquez sur Gérer les modèles de tags.

  5. Sur la page Modèles de balises, cliquez sur le modèle de balise privée que vous souhaitez mettre à jour.

  6. Sur la page Détails du modèle, cliquez sur Modifier.

  7. Dans la section Visibilité, sélectionnez Public.

  8. Cliquez sur Mettre à jour.

REST

Pour passer les modèles de tags privés au mode public, utilisez la méthode tagTemplates.patch.

Activer les modèles de tags et les tags publics pour que les métadonnées soient disponibles simultanément dans le catalogue Dataplex

Lorsque vous autorisez l'activation, le contenu des tags et des modèles de tags publics de Data Catalog est automatiquement et continuellement propagé vers le catalogue Dataplex dans votre organisation ou projet Google Cloud (sans organisation). Les tags et les modèles de tags publics Data Catalog sont propagés vers le catalogue Dataplex en tant que types d'aspects et d'aspects publics, respectivement. Les définitions des types d'aspects globaux sont répliquées dans toutes les régions Google Cloud .

Pour activer les modèles de tags et les tags publics, procédez comme suit:

Console

  1. Dans la console Google Cloud , accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur Gérer la transition vers Dataplex.

  3. Cliquez sur l'onglet Activer.

  4. Cliquez sur Autoriser l'activation.

  5. Dans la boîte de dialogue de confirmation, saisissez le texte affiché, puis cliquez sur Confirmer.

REST

Pour activer les modèles de balises et les balises, utilisez la méthode setConfig.

Pour les organisations Google Cloud et les projets sans organisation, vous pouvez révoquer l'activation initialement fournie en cliquant sur Révoquer l'activation. Lorsque vous annulez l'activation, le processus de propagation des tags et des modèles de tags Data Catalog vers le catalogue Dataplex s'arrête. Les types d'aspects et les aspects du catalogue Dataplex créés par le processus d'activation, mais qui ne sont pas transférés vers le catalogue Dataplex, sont supprimés. La suppression peut prendre jusqu'à 12 heures.

Configurer les autorisations IAM du catalogue Dataplex pour vos métadonnées personnalisées

Les types d'aspects et les groupes d'entrées personnalisés du catalogue Dataplex qui représentent des modèles de tags et des groupes d'entrées de Data Catalog n'héritent pas des autorisations IAM d'origine de Data Catalog. Vous devez configurer manuellement les autorisations IAM Dataplex pour ces types d'aspects et ces groupes d'entrées personnalisés.

Par exemple, si vous souhaitez créer des aspects à l'aide d'un type d'aspect propagé (qui représente un modèle de balise Data Catalog), vous devez configurer les autorisations IAM nécessaires pour ce type d'aspect. De même, lorsque vous ingérez des métadonnées personnalisées, pour créer des entrées personnalisées dans un groupe d'entrées personnalisées propagé, vous devez configurer les autorisations IAM nécessaires pour ce groupe d'entrées.

Pour en savoir plus sur la correspondance des autorisations IAM dans Data Catalog avec celles de Dataplex Catalog, consultez la section Mappage des autorisations IAM entre Data Catalog et Dataplex Catalog.

Pour configurer les autorisations IAM Dataplex nécessaires pour les types d'aspects et les groupes d'entrées personnalisés, procédez comme suit:

Console

  1. Dans la console Google Cloud , accédez à la page Catalogue Dataplex.

    Accéder au catalogue

  2. Cliquez sur Gérer la transition vers Dataplex.

  3. Cliquez sur l'onglet Autorisations Dataplex.

  4. Pour configurer les autorisations IAM de Dataplex pour les types d'aspects, cliquez sur Types d'aspects et modèles de tags.

    1. Pour le modèle de balise propagé à partir de Data Catalog, cliquez sur > Autorisations.

    2. Cliquez sur Ajouter des comptes principaux.

    3. Ajoutez un compte principal et attribuez-lui les rôles requis.

    4. Cliquez sur Enregistrer.

  5. Pour configurer les autorisations IAM de Dataplex pour les groupes d'entrées, cliquez sur Groupes d'entrées.

    1. Pour le groupe d'entrée propagé à partir de Data Catalog, cliquez sur > Autorisations.

    2. Cliquez sur Ajouter des comptes principaux.

    3. Ajoutez un compte principal et attribuez-lui les rôles requis.

    4. Cliquez sur Enregistrer.

REST

Pour configurer les autorisations IAM de Dataplex pour les types d'aspects, utilisez la méthode aspectTypes.setIamPolicy.

Pour configurer les autorisations IAM de Dataplex pour les groupes d'entrées, utilisez la méthode entryGroups.setIamPolicy.

Phase de transfert

Cette phase implique des tâches visant à déplacer l'état actif (read-write) de vos métadonnées personnalisées Data Catalog vers le catalogue Dataplex.

Voici les points clés à retenir pendant la phase de transfert:

  • La page de recherche de Dataplex pointe vers la recherche dans le catalogue Dataplex par défaut.
  • Vous pouvez découvrir et lire les métadonnées de Data Catalog et du catalogue Dataplex dans le catalogue Dataplex.
  • Pour mettre à jour les métadonnées dans la console Google Cloud , vous êtes redirigé vers sa source. Par exemple, si vous mettez à jour des modèles de tags Data Catalog, vous êtes redirigé vers la page des modèles de tags dans Data Catalog.

Définir l'UI de catalogue par défaut sur le catalogue Dataplex

Si vous définissez le catalogue Dataplex comme UI de catalogue par défaut, les conséquences seront les suivantes:

  • Lorsque vous accédez à la page Recherche de Dataplex dans la consoleGoogle Cloud , la recherche dans Dataplex Catalog s'affiche par défaut. La recherche dans le catalogue Dataplex s'effectue dans le catalogue Dataplex et permet de trouver tous vos contenus de métadonnées, y compris ceux créés dans le catalogue Dataplex et ceux importés depuis Data Catalog.

    La recherche Data Catalog ne trouve que du contenu Data Catalog, et non du contenu du catalogue Dataplex. Nous vous recommandons donc d'utiliser la recherche dans le catalogue Dataplex.

  • L'interface Web vous invite à créer des ressources dans le catalogue Dataplex. Par exemple, l'option Créer des types d'aspects est définie par défaut au lieu de Créer des modèles de tags, et Créer un groupe d'entrées (catalogue Dataplex) au lieu de Créer un groupe d'entrées (catalogue Data Catalog).

  • Définir l'UI de catalogue par défaut sur le catalogue Dataplex est généralement une opération à sens unique. Toutefois, Dataplex vous permet de revenir sur les modifications dans des cas exceptionnels, par exemple lorsque vous souhaitez rétablir l'UI de catalogue par défaut sur Data Catalog. Si vous annulez les modifications, vous ne pourrez plus accéder à aucun contenu créé dans le catalogue Dataplex dans l'interface Web de Data Catalog.

Pour définir l'UI de catalogue par défaut sur le catalogue Dataplex, procédez comme suit:

Console

  1. Dans la console Google Cloud , accédez à la page Catalogue Dataplex.

    Accéder au catalogue

  2. Cliquez sur Gérer la transition vers Dataplex.

  3. Cliquez sur l'onglet Recherche Dataplex.

  4. Cliquez sur Définir l'UI de catalogue par défaut sur le catalogue Dataplex.

REST

Pour définir l'UI de catalogue par défaut sur le catalogue Dataplex, utilisez la méthode setConfig.

Transférer des métadonnées personnalisées Data Catalog vers le catalogue Dataplex

Vous pouvez transférer les modèles de tags publics Data Catalog (que vous avez activés) et les groupes d'entrées personnalisées vers le catalogue Dataplex. Assurez-vous de transférer chaque modèle de balise et chaque groupe d'entrées personnalisé séparément.

Le processus de transfert est résumé ci-dessous:

  • Effet

    • Transfère l'état actif des ressources de Data Catalog vers le catalogue Dataplex. Après le transfert, vous devez utiliser le catalogue Dataplex pour modifier la ressource ou accéder à son état actuel.
  • Modifications apportées au contenu et au flux des données

    • Marque la ressource comme read-only dans Data Catalog.
    • Marque la ressource comme read-write dans le catalogue Dataplex.
    • Arrêt de la disponibilité simultanée de cette ressource.
  • Dépendances

    • Le transfert d'un modèle de balise entraîne également le transfert de toutes les balises qui l'utilisent.
    • Le transfert des groupes d'entrées entraîne celui de toutes les entrées qu'ils contiennent.
    • Le transfert des entrées n'affecte pas l'état de transfert de leurs tags et modèles de tags respectifs.

Avant le transfert, pour modifier le contexte commercial d'une entrée (par exemple, overview, contacts), vous pouvez utiliser à la fois les API Data Catalog et Dataplex. Après le transfert, vous ne devez utiliser que l'API Dataplex.

Vous trouverez ci-dessous les opérations autorisées pour une entrée Data Catalog personnalisée taguée, en fonction de l'état de transfert du groupe d'entrées personnalisées et du modèle de tag associés:

  • Lorsqu'un modèle de tag est actif dans Data Catalog, vous pouvez l'utiliser pour créer des tags. Une fois que vous avez transféré le modèle de tag vers le catalogue Dataplex, vous ne pouvez plus l'utiliser pour créer des tags dans Data Catalog.
  • Vous ne pouvez créer des aspects à l'aide de types d'aspects propagés à partir de modèles de tags Data Catalog qu'après avoir transféré les modèles de tags.

Pour transférer les modèles de tags et les groupes d'entrées personnalisées Data Catalog vers le catalogue Dataplex, procédez comme suit:

Console

  1. Dans la console Google Cloud , accédez à la page Catalogue Dataplex.

    Accéder au catalogue

  2. Cliquez sur Gérer la transition vers Dataplex.

  3. Cliquez sur l'onglet Transférer vers Dataplex.

  4. Pour transférer des modèles de tags Data Catalog vers le catalogue Dataplex, cliquez sur Afficher les types d'aspects et les modèles de tags.

    1. Sélectionnez les modèles de balises que vous souhaitez transférer.

    2. Cliquez sur Transférer.

    3. Dans la boîte de dialogue de confirmation, cliquez sur Confirmer.

  5. Pour transférer des groupes d'entrées personnalisées Data Catalog vers le catalogue Dataplex, cliquez sur Afficher les groupes d'entrées.

    1. Sélectionnez les groupes d'entrées que vous souhaitez transférer.

    2. Cliquez sur Transférer.

    3. Dans la boîte de dialogue de confirmation, cliquez sur Confirmer.

REST

Pour transférer des modèles de tags et des groupes d'entrées personnalisées Data Catalog vers le catalogue Dataplex, utilisez la méthode tagTemplates.patch.

Une fois la phase de transfert terminée, le catalogue Dataplex devient la source faisant autorité pour toutes vos métadonnées, et vous n'avez plus besoin d'utiliser Data Catalog.

Mettre à jour les charges de travail programmatiques

Le catalogue Dataplex est fourni avec une nouvelle API, des bibliothèques clientes, des modules Terraform et des commandes Google Cloud CLI. Par conséquent, vous devez mettre à jour les charges de travail existantes qui utilisent Data Catalog de manière programmatique vers le catalogue Dataplex. Consultez les exemples de code pour Dataplex.

Assurez-vous d'aligner la mise à jour des charges de travail programmatique sur le transfert des ressources dépendantes, telles que les modèles de tags et les groupes d'entrées personnalisés. Cela est nécessaire, car le transfert déplace l'état actif (read-write) d'une ressource de Data Catalog vers le catalogue Dataplex.

Vous trouverez ci-dessous un exemple de séquence de mise à jour des charges de travail programmatiques pour interagir avec le catalogue Dataplex, coordonnée avec le transfert des ressources dépendantes:

  1. Si vos charges de travail peuvent tolérer une cohérence à terme, déplacez les opérations read des charges de travail vers le catalogue Dataplex.

  2. Déplacez les charges de travail effectuant des opérations de taggage write vers le catalogue Dataplex en coordination avec le transfert de leurs modèles de tags correspondants.

  3. Déplacez les charges de travail effectuant des opérations d'ingestion personnalisées write vers le catalogue Dataplex en coordination avec le transfert des groupes d'entrées personnalisées respectifs.

Si vous devez dissocier la mise à jour des charges de travail et le transfert des ressources correspondantes, envisagez d'implémenter une logique dans les charges de travail pour acheminer read-write vers Data Catalog ou le catalogue Dataplex en fonction de l'état du transfert de ressources. Par conséquent, les charges de travail fonctionneront indépendamment de l'état de transfert de la ressource associée.

Étape suivante