Synchronisation entre Dataproc Metastore et Data Catalog

Vous pouvez activer le service Dataproc Metastore pour synchroniser les données de Data Catalog afin de profiter du service de découverte des métadonnées et de gestion des métadonnées. Une fois activées, les métadonnées de base de données et de table, telles que les informations de schéma, sont automatiquement synchronisées entre Dataproc Metastore et Data Catalog.

Data Catalog vous permet d'ajouter des tags et de rechercher des ressources spécifiques à un service, telles que des bases de données et des tables.

Qu'est-ce que Data Catalog ?

Data Catalog est un service de gestion des métadonnées entièrement géré et évolutif qui fait partie de la gamme de produits d'analyse de données de Google Cloud. Il fournit des mécanismes de vue et de balisage unifiés pour les métadonnées techniques et métier.

Pour en savoir plus, consultez les guides de fonctionnalités de Data Catalog suivants:

Autorisations

Data Catalog respecte les autorisations de niveau Dataproc Metastore. Pour les métadonnées synchronisées entre Dataproc Metastore et Data Catalog, les autorisations IAM spécifiées dans Dataproc Metastore s'appliquent également aux métadonnées de Data Catalog.

Data Catalog vérifie les autorisations pour chaque base de données/table de métastore au moment de l'accès, de sorte que seuls les utilisateurs ayant accès au service Dataproc Metastore puissent visualiser les ressources de service synchronisées comme entrées dans Data Catalog. s'affiche en haut de l'écran.

Activer la synchronisation de Data Catalog

Une fois la synchronisation Data Catalog activée, Data Catalog effectue des synchronisations complètes et en direct de votre service Dataproc Metastore.

Il synchronise les métadonnées suivantes:

  • Instances
  • Bases de données, y compris les noms et les descriptions
  • Tables, y compris le nom, la description et le schéma (colonnes avec descriptions)
  • Propriétés de la base de données
  • Propriétés de la table

Le tableau suivant présente le mappage des ressources entre Dataproc Metastore et Data Catalog:

Ressource Dataproc Metastore Ressource Data Catalog
Instance Entrée du groupe d'entrées
Entrée
Base de données Entrée
Table Entrée
Colonne Schéma

Vous pouvez activer le service Dataproc Metastore à synchroniser avec Data Catalog lorsque vous créez ou mettez à jour un service Dataproc Metastore à l'aide de Google Cloud Console. Vous pouvez désactiver la synchronisation de la même façon.

Créer un service avec la synchronisation Data Catalog activée

La synchronisation de Data Catalog est désactivée par défaut.

Pour activer la synchronisation de Data Catalog pour un nouveau service, procédez comme suit:

Console

  1. Dans Cloud Console, ouvrez la page "Dataproc Metastore" :

    Ouvrir Dataproc Metastore dans Cloud Console

  2. En haut de la page Dataproc Metastore, cliquez sur le bouton Créer. La page Créer un service s'ouvre.

  3. Configurez votre service comme vous le souhaitez.

  4. Sous Intégration des métadonnées, activez la synchronisation Data Catalog pour synchroniser le service Dataproc Metastore avec Data Catalog.

  5. Cliquez sur Envoyer.

Activer ou désactiver la synchronisation de Data Catalog pour un service existant

Pour activer ou désactiver la synchronisation de Data Catalog pour un service existant, procédez comme suit:

Console

  1. Dans Cloud Console, ouvrez la page "Dataproc Metastore" :

    Ouvrir Dataproc Metastore dans Cloud Console

  2. Sur la page Dataproc Metastore, cliquez sur le nom du service que vous souhaitez modifier. La page Détails du service de ce service s'ouvre.

  3. Dans l'onglet Configuration, cliquez sur le bouton Modifier. La page Modifier le service s'ouvre.

  4. Dans la section Intégration des métadonnées, cliquez sur le bouton pour activer ou désactiver l'option Activer pour la synchronisation de Data Catalog.

  5. Cliquez sur le bouton Envoyer pour mettre à jour le service.

Rechercher avec Data Catalog

Vous pouvez rechercher des métadonnées Dataproc Metastore synchronisées à l'aide de Data Catalog.

Bien qu'il n'existe pas d'options de recherche personnalisées pour Dataproc Metastore, il existe plusieurs façons de rechercher différentes ressources de métastore Dataproc:

  • Instance Dataproc Metastore
    • Par nom à afficher
    • Méthodes standards de Data Catalog, par tag, etc.
  • Base de données
    • Par nom à afficher
    • Par description
    • Par instance Dataproc Metastore
    • Méthodes standards de Data Catalog, par tag, etc.
  • Table:
    • Par nom à afficher
    • Par description
    • Par nom de colonne
    • Par description de colonne
    • Par base de données
    • Par instance Dataproc Metastore
    • Méthodes standards de Data Catalog, par tag, etc.

Questions fréquentes

  • Attendez six heures avant de vérifier si la synchronisation des métadonnées est terminée et correcte.

  • Si vous pensez qu'il y a un problème avec la synchronisation Dataproc Metastore avec Data Catalog, consultez les journaux de publication de métadonnées dans Cloud Dataproc Cloud Dataproc avec le filtre textPayload=~".*Publish.*". Pour plus d'informations sur l'accès aux journaux, consultez la section Accéder aux journaux des tâches dans Logging.

  • Si vous désactivez la synchronisation de Data Catalog, les métadonnées ne seront plus synchronisées entre Dataproc Metastore et Data Catalog. Toutefois, les métadonnées déjà synchronisées resteront dans Data Catalog.

  • Si vous supprimez une instance Dataproc Metastore, les entrées de l'instance, de la base de données et de la table correspondantes sont également supprimées de Data Catalog.

  • Data Catalog respecte les durées de conservation standards de Google Cloud.

  • L'activation de la synchronisation de Data Catalog pour Dataproc Metastore est gratuite.

Étape suivante