Ajouter une zone

Cette page présente les zones et explique comment ajouter des zones à vos lac Dataplex.

Concepts de zone Dataplex

Les zones de données sont des entités nommées dans un lac Dataplex. Il s'agit les regroupements logiques de données structurées, semi-structurées et non structurées composé de plusieurs éléments, tels que des buckets Cloud Storage, des ensembles de données et des tables BigQuery.

Un lac peut inclure une ou plusieurs zones. Bien qu'une zone ne puisse faire partie que d'une seule il peut contenir des éléments qui pointent vers des ressources faisant partie de en dehors de son projet parent.

Vous pouvez sélectionner des configurations pour une zone dans Dataplex. Vous pouvez choisir entre deux types de zones : les zones brutes et les zones sélectionnées.

Zones brutes

Les zones brutes stockent des données structurées, des données semi-structurées telles que des fichiers CSV et des fichiers JSON, ainsi que des données non structurées dans n'importe quel format provenant de sources externes. Cela permet de préparer des données brutes avant d'effectuer Transformer. Les données peuvent être stockées dans des buckets Cloud Storage Ensembles de données BigQuery.

Les zones brutes sont compatibles avec la précision au niveau du bucket ou de l'ensemble de données pour la lecture et l'écriture autorisations. Pour en savoir plus, consultez la page IAM et contrôle des accès.

Il n'existe aucune restriction concernant le type de données pouvant être stocké dans les zones brutes.

Zones sélectionnées

Les zones sélectionnées stockent des données structurées. Les données peuvent être stockées dans des buckets Cloud Storage ou des ensembles de données BigQuery.

Les formats compatibles avec les buckets Cloud Storage incluent Parquet, Avro et ORC. Cela est utile pour mettre en scène des données qui nécessitent un traitement avant d'être utilisées pour l'analyse ou pour diffuser des données prêtes à être analysées.

Pour les tables BigQuery, vous devez disposer d'un schéma bien défini Partitions de style Hive. Lorsque vous fournissez un schéma pour une table donnée dans une zone sélectionnée, les données doivent se conformer au schéma défini pour la table sans dérive de schéma.

Cela signifie que les données doivent être compatibles avec le schéma défini pour la table, et que les nouvelles partitions ne doivent pas avoir de schéma en conflit avec celui de la table.

Les zones sélectionnées acceptent la granularité au niveau du bucket Cloud Storage ou de l'ensemble de données BigQuery pour les autorisations de lecture et d'écriture. Pour en savoir plus, consultez la page Contrôle des accès avec IAM.

Avant de commencer

Avant de pouvoir ajouter des zones à un lac, vous devez en avoir un. Si vous ne l'avez pas déjà fait, créez un lac.

La plupart des commandes gcloud lake nécessitent un emplacement. Vous pouvez spécifier l'emplacement définir le paramètre --location.

Contrôle des accès

  • Pour ajouter une zone, vous devez disposer de rôles IAM contenant l'autorisation IAM dataplex.lakes.create. Dataplex Le rôle spécifique roles/dataplex.admin peut être utilisé pour accorder des autorisations d'ajout.

Pour en savoir plus, consultez la page Contrôle des accès Dataplex avec IAM.

Ajouter une zone

Vous pouvez créer une zone et en ajouter une à un lac existant en émettant le Méthode de l'API Dataplex lakes.zones.create ou en ajoutant une zone dans la console Google Cloud.

Vous pouvez ajouter plusieurs zones à votre lac. Vous pouvez ajouter une zone à la fois, mais continuer à utiliser votre lac pendant la création de la zone.

Console

  1. Dans la console Google Cloud, accédez à Dataplex:

    Accéder à Dataplex

  2. Accédez à la vue Gérer.

  3. Dans la vue Gérer, cliquez sur le nom du lac auquel vous souhaitez ajouter une zone.

  4. Dans l'onglet Zones, cliquez sur Ajouter une zone.

  5. Saisissez un nom à afficher pour votre zone.

  6. Cliquez sur la liste déroulante Type. Sélectionnez Zone brute ou Zone de données organisées. En savoir plus sur les types de zones acceptés

  7. Facultatif : saisissez une description.

  8. Sous Emplacements des données, sélectionnez Régional ou Multirégional. Vous ne pourrez plus modifier votre choix par la suite. Région unique et multirégion les données ne peuvent pas être mélangées dans la même zone.

  9. Facultatif : activez la découverte des métadonnées, qui permet à Dataplex d'analyser et d'extraire automatiquement les métadonnées des données de votre zone :

    1. Cliquez sur Paramètres de découverte.

    2. Assurez-vous que l'option Activer la découverte des métadonnées est sélectionnée.

    3. Facultatif : Sous Inclure des modèles, listez les fichiers à inclure dans les analyses de découverte.

    4. Facultatif: Sous Exclure des formats, répertoriez les fichiers à exclure dans les analyses de découverte. Si vous saisissez à la fois des modèles d'inclusion et d'exclusion, les modèles d'exclusion sont appliqués en premier.

    5. Cliquez sur le menu déroulant Récurrence, puis sélectionnez une fréquence.

    6. Cliquez sur la liste déroulante Fuseau horaire, puis sélectionnez un fuseau horaire.

    7. Si vous avez sélectionné Personnalisé sous Périodicité, sous Programmer, saisissez un calendrier de jobs. Sinon, la valeur Schedule (Planifier) est renseignée automatiquement.

  10. Cliquez sur Créer.

La création de la zone peut prendre quelques minutes.

REST

Suivez les instructions de l'API pour ajouter une zone. à l'aide d'APIs Explorer.

Une fois la création de la zone terminée, elle passe automatiquement à l'état actif. Si s'il échoue, le lac revient à son état précédent.

Après avoir créé votre zone, vous pouvez mapper les données stockées dans des buckets Cloud Storage les ensembles de données BigQuery en tant qu'éléments dans la zone.

Étape suivante