Ajouter une zone

Cette page présente les zones et explique comment ajouter des zones à vos lac Dataplex.

Concepts de zone Dataplex

Les zones de données sont des entités nommées dans un lac Dataplex. Il s'agit les regroupements logiques de données structurées, semi-structurées et non structurées composé de plusieurs éléments, tels que des buckets Cloud Storage, des ensembles de données et des tables BigQuery.

Un lac peut inclure une ou plusieurs zones. Bien qu'une zone ne puisse faire partie que d'une seule il peut contenir des éléments qui pointent vers des ressources faisant partie de en dehors de son projet parent.

Vous pouvez sélectionner des configurations pour une zone dans Dataplex. Il y a vous avez le choix entre deux types de zones: les zones brutes et les zones organisées.

Zones brutes

Les zones brutes stockent des données structurées, des données semi-structurées comme des fichiers CSV et Fichiers JSON et données non structurées dans n'importe quel format à partir de sources externes. Cela permet de préparer des données brutes avant d'effectuer Transformer. Les données peuvent être stockées dans des buckets Cloud Storage Ensembles de données BigQuery.

Les zones brutes sont compatibles avec la précision au niveau du bucket ou de l'ensemble de données pour la lecture et l'écriture autorisations. Pour en savoir plus, consultez la page IAM et contrôle des accès.

Il n'existe aucune restriction concernant le type de données pouvant être stockées dans les zones brutes.

Zones sélectionnées

Les zones sélectionnées stockent des données structurées. Les données peuvent être stockées dans des buckets Cloud Storage ou des ensembles de données BigQuery.

Les formats acceptés pour les buckets Cloud Storage incluent Parquet, Avro et ORC. Il est utile pour la préproduction de données qui doivent être traitées avant d'être utilisées pour l'analyse ou pour livrer des données prêtes à être analysées.

Pour les tables BigQuery, vous devez disposer d'un schéma bien défini Partitions de style Hive. Lorsque vous fournissez un schéma pour une table donnée dans une sélection zone, les données doivent être conformes au schéma défini pour la table sans schéma dérive.

Cela signifie que les données doivent être compatibles avec le schéma définie pour la table, et les nouvelles partitions ne doivent pas avoir de schéma qui est en conflit avec le schéma de la table.

Les zones sélectionnées sont compatibles avec bucket Cloud Storage Précision au niveau de l'ensemble de données BigQuery pour la lecture et l'écriture autorisations. Pour en savoir plus, consultez la page Contrôle des accès avec IAM.

Avant de commencer

Avant de pouvoir ajouter des zones à un lac, vous devez en avoir un. Si vous n'avez pas encore créez un lac.

La plupart des commandes gcloud lake nécessitent un emplacement. Vous pouvez spécifier l'emplacement définir le paramètre --location.

Contrôle des accès

  • Pour ajouter une zone, vous devez disposer de rôles IAM contenant l'autorisation IAM dataplex.lakes.create. Dataplex Le rôle spécifique roles/dataplex.admin peut être utilisé pour accorder des autorisations d'ajout.

Pour en savoir plus, consultez la page Contrôle des accès Dataplex avec IAM.

Ajouter une zone

Vous pouvez créer une zone et en ajouter une à un lac existant en émettant le Méthode de l'API Dataplex lakes.zones.create ou en ajoutant une zone dans la console Google Cloud.

Vous pouvez ajouter plusieurs zones à votre lac. Vous pouvez ajouter une zone à la fois, utiliser votre lac pendant la création de la zone.

Console

  1. Dans la console Google Cloud, accédez à Dataplex:

    Accéder à Dataplex

  2. Accédez à la vue Gérer.

  3. Dans la vue Gérer, cliquez sur le nom du lac à ajouter zone.

  4. Dans l'onglet Zones, cliquez sur . Ajouter une zone

  5. Saisissez un nom à afficher pour votre zone dans le champ Display name (Nom à afficher).

  6. Cliquez sur la liste déroulante Type. Sélectionnez Zone brute ou Zone de données organisées. Apprendre en savoir plus sur les types de zones compatibles.

  7. Facultatif: saisissez une description.

  8. Sous Emplacements des données, sélectionnez Régional ou Multirégional. Ce que vous choisissez ne pourra pas être modifié par la suite. Région unique et multirégion les données ne peuvent pas être mélangées dans la même zone.

  9. Facultatif: Activer la découverte de métadonnées pour permettre à Dataplex pour analyser et extraire automatiquement les métadonnées des données dans votre zone:

    1. Cliquez sur Paramètres de découverte.

    2. Assurez-vous que l'option Activer la découverte des métadonnées est sélectionnée.

    3. Facultatif: Sous Inclure les formats, répertoriez les fichiers à inclure dans le paramètre les analyses de découverte.

    4. Facultatif: Sous Exclure des formats, répertoriez les fichiers à exclure dans le les analyses de découverte. Si vous saisissez à la fois des formats d'inclusion et d'exclusion, excluez de modèles sont appliqués en premier.

    5. Cliquez sur le menu déroulant Récurrence, puis sélectionnez une fréquence.

    6. Cliquez sur la liste déroulante Fuseau horaire et sélectionnez un fuseau horaire.

    7. Si vous avez sélectionné Personnalisé sous Périodicité, sous Programmer, saisissez un calendrier de jobs. Sinon, la valeur Programmation est renseignée automatiquement.

  10. Cliquez sur Créer.

La création de la zone peut prendre quelques minutes.

REST

Suivez les instructions de l'API pour ajouter une zone. à l'aide d'APIs Explorer.

Une fois la création de la zone terminée, elle passe automatiquement à l'état actif. Si s'il échoue, le lac revient à son état précédent.

Après avoir créé votre zone, vous pouvez mapper les données stockées dans des buckets Cloud Storage les ensembles de données BigQuery en tant qu'éléments dans la zone.

Étape suivante