Synchronisation de Dataproc Metastore vers Data Catalog

Vous pouvez activer le service Dataproc Metastore sur la synchronisation Data Catalog pour profiter de la découverte et de la gestion des métadonnées. Une fois activées, les métadonnées de base de données et de table sont automatiquement synchronisées entre Dataproc Metastore et Data Catalog.

Data Catalog vous permet d'ajouter des tags à des ressources spécifiques du service, telles que des bases de données et des tables, et de les rechercher.

Qu'est-ce que Data Catalog ?

Data Catalog est un service de gestion des métadonnées entièrement géré et évolutif qui fait partie de la gamme de produits d'analyse de données de Google Cloud. Il fournit des mécanismes unifiés de visualisation et d'ajout de tags pour les métadonnées techniques et métier.

Pour plus d'informations, consultez les guides de fonctionnalités de Data Catalog suivantes:

Autorisations

Data Catalog respecte les autorisations au niveau de Dataproc Metastore. Pour les métadonnées synchronisées depuis Dataproc Metastore vers Data Catalog, les autorisations IAM spécifiées dans Dataproc Metastore s'appliquent également aux métadonnées de Data Catalog.

Data Catalog vérifie les autorisations pour chaque base de données/table de métastore au moment de l'accès afin que seuls les utilisateurs ayant accès au service Dataproc Metastore puissent voir les ressources du service synchronisé en tant qu'entrées dans Data Catalog.

Vous devez demander roles/metastore.metadataViewer pour afficher les entrées Dataproc Metastore synchronisées dans Data Catalog. Les roles/metastore.Admin et roles/metastore.Editor ne prennent pas en charge les autorisations de bases de données et de tables de métastore.

Activer la synchronisation Data Catalog

Une fois la synchronisation Data Catalog activée, Data Catalog effectue des synchronisations complètes et en direct sur votre service Dataproc Metastore.

Data Catalog synchronise les métadonnées suivantes:

  • Instances
  • Bases de données, y compris le nom et la description
  • Tables, y compris le nom, la description et le schéma (colonnes avec descriptions)
  • Propriétés de la base de données
  • Propriétés de la table

Le tableau suivant présente le mappage des ressources entre Dataproc Metastore et Data Catalog:

Ressource Dataproc Metastore Ressource Data Catalog
Instance Groupe d'entrées
Entrée
Base de données Entrée
Table Entrée
Colonne Schéma

Vous pouvez activer la synchronisation du service Dataproc Metastore avec Data Catalog lorsque vous créez ou mettez à jour un service Dataproc Metastore à l'aide de Google Cloud Console. Vous pouvez désactiver la synchronisation de la même manière.

Créer un service avec la synchronisation Data Catalog activée

La synchronisation avec Data Catalog est désactivée par défaut.

Pour activer la synchronisation Data Catalog pour un nouveau service:

Console

  1. Dans la console, ouvrez la page Dataproc Metastore:

    Ouvrir Dataproc Metastore dans la console

  2. En haut de la page Dataproc Metastore, cliquez sur le bouton Créer. La page Créer un service s'ouvre.

  3. Configurez votre service comme vous le souhaitez.

  4. Sous Intégration de métadonnées, activez la synchronisation Data Catalog pour synchroniser le service Dataproc Metastore avec Data Catalog.

  5. Cliquez sur Envoyer.

Activer ou désactiver la synchronisation Data Catalog pour un service existant

Pour activer ou désactiver la synchronisation Data Catalog pour un service existant, procédez comme suit:

Console

  1. Dans la console, ouvrez la page Dataproc Metastore:

    Ouvrir Dataproc Metastore dans la console

  2. Sur la page Dataproc Metastore, cliquez sur le nom du service que vous souhaitez modifier. La page Informations sur le service s'ouvre pour ce service.

  3. Dans l'onglet Configuration, cliquez sur le bouton Modifier. La page Modifier le service s'ouvre.

  4. Dans la section Intégration de métadonnées, cliquez sur le bouton Activer pour activer ou désactiver la synchronisation Data Catalog.

  5. Cliquez sur le bouton Envoyer pour mettre à jour le service.

Effectuer des recherches avec Data Catalog

Vous pouvez rechercher des métadonnées Dataproc Metastore synchronisées à l'aide de Data Catalog.

Bien qu'il n'existe pas d'options de recherche personnalisées pour Dataproc Metastore, il existe plusieurs façons de rechercher différentes ressources Dataproc Metastore:

  • Instance Dataproc Metastore
    • Par nom à afficher
    • Méthodes Data Catalog standards : par tags, etc.
  • Base de données
    • Par nom à afficher
    • Par description
    • Par instance Dataproc Metastore
    • Méthodes Data Catalog standards : par tags, etc.
  • Tableau :
    • Par nom à afficher
    • Par description
    • Par nom de colonne
    • Par description de colonne
    • Par base de données
    • Par instance Dataproc Metastore
    • Méthodes Data Catalog standards : par tags, etc.

Questions fréquentes

  • Attendez six heures avant de vérifier l'exhaustivité et l'exactitude de la synchronisation des métadonnées dans Data Catalog.

  • Si vous pensez qu'il existe un problème avec la synchronisation de Dataproc Metastore vers Data Catalog, vérifiez les journaux de publication de métadonnées dans Cloud Logging pour Dataproc Metastore avec le filtre textPayload=~".*Publish.*". Pour en savoir plus sur l'accès aux journaux, consultez la page Accéder aux journaux de tâches dans Logging.

  • Si vous désactivez la synchronisation Data Catalog, les métadonnées cessent de se synchroniser depuis Dataproc Metastore vers Data Catalog. Toutefois, les métadonnées déjà synchronisées restent dans Data Catalog.

  • Si vous supprimez une instance Dataproc Metastore, les entrées de table, instances et base de données correspondantes sont également supprimées de Data Catalog.

  • Data Catalog respecte les durées de conservation standards de Google Cloud.

  • L'activation de la synchronisation Data Catalog pour Dataproc Metastore n'entraîne aucun coût supplémentaire.

Étapes suivantes