Gérer les entrées et ingérer des sources personnalisées

Ce document explique comment créer et gérer des types d'entrées, des groupes d'entrées et des entrées personnalisées pour permettre l'intégration de sources de données personnalisées à Dataplex.

Une entrée représente une ressource pour laquelle vous capturez des métadonnées. Un groupe d'entrées est un conteneur pour une ou plusieurs entrées. Il permet de gérer le contrôle des accès et l'emplacement régional. Un type d'entrée définit les métadonnées requises pour les entrées. Les types d'entrées apportent une structure et des règles dans une ressource d'entrée fluide et définie de manière vague, ce qui permet d'assurer l'extensibilité des entrées.

Pour intégrer une source de données personnalisée dans Dataplex, vous devez créer une entrée personnalisée à l'aide d'un type d'entrée personnalisé appartenant à un groupe d'entrées personnalisé. La création d'une entrée personnalisée implique les étapes générales suivantes:

  1. Créez un groupe d'entrées.
  2. Créez un type d'entrée.
  3. Créez une entrée personnalisée pour le type d'entrée dans le groupe d'entrées.

Entrées

Une entrée représente un élément de données pour lequel vous capturez des métadonnées. Chaque entrée est une instance d'un type d'entrée. Chaque opération sur les aspects d'une entrée doit respecter les aspects requis de son type d'entrée. Par exemple, lorsque vous créez une entrée, vous devez fournir des valeurs pour tous les types d'aspect définis par le type d'entrée. Vous ne pouvez pas supprimer ces aspects d'une entrée marquée comme required dans le type d'entrée.

Catégories d'entrées

  • Entrées système: Dataplex crée des entrées pour les ressources Google Cloud, telles que les ensembles de données ou les tables BigQuery. Les entrées créées par Dataplex sont appelées "entrées système". Dataplex maintient automatiquement les entrées système à jour grâce à une synchronisation continue des métadonnées à partir des systèmes Google Cloud compatibles.

    Vous ne pouvez pas modifier les métadonnées renseignées automatiquement (appelées aspects requis) pour les entrées système. Vous ne pouvez ajouter et modifier des métadonnées supplémentaires pour les entrées système qu'en utilisant des aspects facultatifs. Pour en savoir plus, consultez la section Catégories d'aspects.

  • Entrées personnalisées: les entrées que vous pouvez créer et gérer pour des ressources personnalisées sont appelées "entrées personnalisées". Les ressources personnalisées correspondent aux ressources des services autres que Google qui sont hébergées dans Google Cloud ou en externe (par exemple, sur site).

Groupes d'entrées

Un groupe d'entrées est un conteneur pour une ou plusieurs entrées. Vous pouvez utiliser des groupes d'entrées pour gérer le contrôle des accès et l'emplacement régional des entrées. Chaque groupe d'entrées appartient à un projet.

Catégories de groupes d'entrées

  • Groupes d'entrées système: pour les ressources Google Cloud, Dataplex crée automatiquement des groupes d'entrées pour chaque système dans chaque projet et emplacement où se trouvent les ressources. Par exemple, @bigquery est le groupe d'entrées système pour BigQuery.

  • Groupes d'entrées personnalisés: groupes d'entrées que vous créez pour des ressources personnalisées.

Types d'entrées

Les types d'entrées définissent les métadonnées requises pour les entrées de ce type à l'aide d'un ensemble de types d'aspects requis.

Vous ne pouvez spécifier les types d'aspect requis que sur les entrées, et non sur les colonnes d'une entrée. Lorsque vous créez une entrée d'un type d'entrée spécifique, vous devez fournir des valeurs pour tous les types d'aspect requis spécifiés par le type d'entrée.

Les types d'aspects obligatoires référencés dans un type d'entrée doivent appartenir au même projet que le type d'entrée.

Catégories de types d'entrées

  • Types d'entrées personnalisés: types d'entrées que vous créez et gérez. Vous pouvez utiliser ces types d'entrées pour créer des entrées personnalisées.

  • Types d'entrées système: Dataplex fournit ces types d'entrées par défaut. Les types d'entrées système sont ensuite classés dans trois catégories : réutilisables et restreints.

    Le tableau suivant décrit les catégories des types d'entrées système et la liste des types d'entrées fournis par Dataplex pour chacune d'elles:

    Catégorie du type d'entrée système Description Types d'entrées fournis par Dataplex
    Type d'entrée système réutilisable Vous pouvez utiliser ce type d'entrée pour créer des entrées personnalisées.
    • generic
    Type d'entrée système restreint Celles-ci sont réservées à l'utilisation du système, par exemple pour créer des entrées pour les ressources Google Cloud.

    Vous ne pouvez pas utiliser ces types d'entrées pour créer des entrées, mais vous pouvez les modifier pour ajouter des aspects facultatifs.
    • bigquery-connection
    • bigquery-dataset
    • bigquery-model
    • bigquery-routine
    • bigquery-table
    • bigquery-view
    • cloudsql-database
    • cloudsql-instance
    • cloudsql-schema
    • cloudsql-table
    • cloudsql-view
    • sql-access
    • storage
    • storage-bucket
    • storage-folder

Vous pouvez créer un type d'entrée personnalisé dans un emplacement régional spécifique ou en tant que ressource globale. Les types d'entrées système sont toujours globaux. L'emplacement d'un type d'entrée a une incidence sur l'étendue de son applicabilité. Pour en savoir plus, consultez la section Contraintes de projet et d'emplacement.

Avant de commencer

Avant de gérer les entrées et d'ingérer des sources de données personnalisées, assurez-vous d'avoir effectué les tâches décrites dans cette section.

Rôles requis

Pour obtenir les autorisations nécessaires pour créer et gérer des entrées, demandez à votre administrateur de vous attribuer les rôles IAM suivants sur la ressource:

Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus, consultez la page Rôles IAM Dataplex.

Activer l'API

Activez l'API Dataplex dans votre projet Dataplex.

Activer l'API

Créer un groupe d'entrées

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur l'onglet Groupes d'entrées > Personnalisé.

  3. Cliquez sur Créer.

  4. Dans la fenêtre Créer un groupe d'entrées, saisissez la commande suivante:

    • Facultatif: dans le champ Nom à afficher, saisissez un nom à afficher pour votre groupe d'entrées.
    • ID du groupe d'entrées: saisissez un identifiant unique pour votre groupe d'entrées.
    • Facultatif: dans le champ Description, saisissez une description pour votre groupe d'entrées.
    • Zone géographique: sélectionnez une zone géographique. Une fois le groupe d'entrées créé, vous ne pouvez plus modifier l'emplacement.
  5. (Facultatif) Dans la section Étiquettes, ajoutez des étiquettes arbitraires sous forme de paires clé/valeur à vos ressources :

    1. Cliquez sur Ajouter une étiquette.
    2. Dans le champ Clé, saisissez une clé.
    3. Dans le champ Valeur, saisissez une valeur pour la clé.
    4. Pour ajouter d'autres libellés, cliquez sur Ajouter une étiquette et répétez la procédure.
  6. Cliquez sur Enregistrer.

REST

Pour créer un groupe d'entrées, utilisez la méthode entryGroups.Create.

Créer un type d'entrée

Pour ingérer une nouvelle source, vous devez créer un type d'entrée.

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur l'onglet Types d'entrées > Personnalisé.

  3. Cliquez sur Créer.

  4. Dans la fenêtre Créer un type d'entrée, saisissez la commande suivante:

    1. Facultatif: dans le champ Nom à afficher, saisissez un nom à afficher pour votre type d'entrée.
    2. ID du type d'entrée: saisissez un identifiant unique pour votre type d'entrée. Vous ne pouvez pas modifier ce paramètre après avoir créé le type d'entrée.
    3. Facultatif: dans le champ Description, saisissez une description du type d'entrée.
    4. Facultatif: dans le champ Système, saisissez le système source.
    5. Facultatif: dans le champ Plate-forme, saisissez la plate-forme à laquelle les entrées de ce type appartiennent. Exemple :Google Cloud
    6. Dans le champ Lieu, sélectionnez un lieu. Une fois le type d'entrée créé, vous ne pouvez plus modifier l'emplacement.
  5. Facultatif: Dans la section Alias de type, définissez le type de données pour votre type d'entrée. Le type de données peut être utilisé pour interroger les entrées.

    1. Cliquez sur Ajouter un alias de type.
    2. Dans le champ Alias de type, sélectionnez un type de données. Vous pouvez ajouter plusieurs alias de type.
  6. Dans la section Types d'aspects obligatoires, sélectionnez les types d'aspects obligatoires pour ce type d'entrée. Ces types d'aspects obligatoires seront attribués à chaque entrée créée à partir de ce type.

    1. Cliquez sur Choisir un type d'aspect.
    2. Dans la fenêtre Sélectionner les types d'aspects, sélectionnez le type d'aspect.
    3. Cliquez sur Sélectionner.

    Vous ne pouvez pas supprimer les aspects requis d'une entrée.

  7. (Facultatif) Dans la section Étiquettes, ajoutez des étiquettes arbitraires sous forme de paires clé/valeur à vos ressources :

    1. Cliquez sur Ajouter une étiquette.
    2. Dans le champ Clé, saisissez une clé.
    3. Dans le champ Valeur, saisissez une valeur pour la clé.
    4. Pour ajouter d'autres libellés, cliquez sur Ajouter une étiquette et répétez la procédure.
  8. Cliquez sur Enregistrer.

REST

Pour créer un type d'entrée, utilisez la méthode entryType.create.

Créer une entrée personnalisée

Avant de créer une entrée personnalisée, assurez-vous d'avoir créé un groupe d'entrées et un type d'entrée.

Console

Il n'est pas possible de créer une entrée personnalisée dans la console Google Cloud. Utilisez plutôt Google Cloud CLI ou l'API.

REST

Pour créer une entrée personnalisée, utilisez la méthode entries.create.

Après avoir créé une entrée personnalisée, vous pouvez lui ajouter des aspects. Pour en savoir plus, consultez la section Ajouter des aspects à une entrée.

Gérer les groupes d'entrées

Cette section explique comment afficher la liste des groupes d'entrées disponibles, afficher les détails, mettre à jour et supprimer des groupes d'entrées.

Afficher la liste des groupes d'entrées disponibles

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur l'onglet Groupes d'entrées.

    Vous pouvez accéder à la liste des groupes d'entrées personnalisés et système. Pour en savoir plus, consultez la section Catégories de groupes d'entrées de ce document.

    Dans l'onglet Personnalisé, les groupes d'entrées avec le suffixe (Data Catalog) sont les groupes d'entrées importés depuis Data Catalog.

  3. Pour afficher la liste des groupes d'entrées de tous les projets, cliquez sur l'onglet Personnalisé, puis sur le bouton Afficher depuis tous les projets en position activée.

REST

Pour afficher la liste des groupes d'entrées disponibles, utilisez la méthode entryGroups.list.

Afficher les détails d'un groupe d'entrées

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur l'onglet Groupes d'entrées.

  3. Cliquez sur le groupe d'entrées dont vous souhaitez afficher les détails.

    La page d'informations sur le groupe d'entrées s'ouvre. Vous pouvez accéder à des informations telles que le nom à afficher, l'ID du groupe d'entrées, la description, l'ID du projet, l'emplacement, les libellés, la date de création et la date de dernière modification du groupe d'entrées sélectionné.

  4. Si le groupe d'entrées est importé à partir de Data Catalog, désigné par le suffixe (Data Catalog), vous pouvez afficher ses détails dans les interfaces Data Catalog et Dataplex Catalog. Pour ce faire, sur la page d'informations du groupe d'entrées, sélectionnez Data Catalog ou Dataplex Catalog.

  5. Pour afficher la liste des 10 entrées associées créées récemment, cliquez sur l'onglet Exemples d'entrées.

REST

Pour récupérer les détails d'un groupe d'entrées, utilisez la méthode entryGroups.get.

Mettre à jour un groupe d'entrées

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur l'onglet Groupes d'entrées > Personnalisé.

  3. Cliquez sur le groupe d'entrées que vous souhaitez mettre à jour.

  4. Sur la page Détails du groupe d'entrées, cliquez sur Modifier.

  5. Modifiez le nom à afficher, la description et les libellés, si nécessaire.

  6. Cliquez sur Enregistrer.

REST

Pour mettre à jour un groupe d'entrées, utilisez la méthode entryGroups.patch.

Supprimer un groupe d'entrées

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur l'onglet Groupes d'entrées > Personnalisé.

  3. Cliquez sur le groupe d'entrées que vous souhaitez supprimer.

  4. Sur la page Détails du groupe d'entrées, cliquez sur Supprimer. Confirmez lorsque vous y êtes invité.

REST

Pour supprimer un groupe d'entrées, utilisez la méthode entryGroups.delete.

Gérer les types d'entrées

Cette section explique comment afficher la liste des groupes d'entrées disponibles, afficher les détails, mettre à jour et supprimer des types d'entrées.

Afficher la liste des types d'entrées disponibles

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur l'onglet Types d'entrées.

    Vous pouvez accéder à la liste des types d'entrées personnalisées et système. Pour en savoir plus, consultez la section Catégories de types d'entrées de ce document.

  3. Pour afficher la liste des types d'entrées de tous les projets, cliquez sur l'onglet Personnalisé, puis sur le bouton Afficher depuis tous les projets en position activée.

REST

Pour afficher la liste des types d'entrées disponibles, utilisez la méthode entryTypes.list.

Afficher les détails d'un type d'entrée

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur l'onglet Types d'entrées > Personnalisé.

  3. Cliquez sur le type d'entrée dont vous souhaitez afficher les détails.

    La page d'informations sur le type d'entrée s'ouvre. Vous pouvez accéder à des informations telles que le nom à afficher, l'ID du type d'entrée, la description, l'ID du projet, l'emplacement, la plate-forme, le système, les alias de type, les étiquettes, la date de création et la date de dernière modification du type d'entrée sélectionné.

  4. Pour afficher la liste des 10 entrées associées créées récemment, cliquez sur l'onglet Exemples d'entrées.

REST

Pour récupérer les détails d'un type d'entrée, utilisez la méthode entryTypes.get.

Mettre à jour un type d'entrée

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur l'onglet Types d'entrées > Personnalisé.

  3. Cliquez sur le type d'entrée que vous souhaitez mettre à jour.

  4. Sur la page Détails du type d'entrée, cliquez sur Modifier.

  5. Modifiez le nom à afficher, la description, le système, la plate-forme, les alias de type et les libellés, si nécessaire.

  6. Cliquez sur Enregistrer.

REST

Pour mettre à jour un type d'entrée, utilisez la méthode entryTypes.patch.

Supprimer un type d'entrée

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur l'onglet Types d'entrées > Personnalisé.

  3. Cliquez sur le type d'entrée que vous souhaitez supprimer.

  4. Sur la page Détails du type d'entrée, cliquez sur Supprimer. Confirmez lorsque vous y êtes invité.

REST

Pour supprimer un type d'entrée, utilisez la méthode entryTypes.delete.

Étapes suivantes