Utiliser Data Exploration Workbench

Dans Dataplex (Explorer), l'outil d'exploration de données vous permet de créer des Interrogez des données entièrement gouvernées et accédez en un clic à Spark SQL des scripts et des notebooks Jupyter. Explorer vous permet de collaborer avec vos équipes des fonctionnalités intégrées de publication, de partage et de recherche d'éléments de codage.

Découvrez comment provisionner, faire évoluer et gérer l'infrastructure sans serveur nécessaires pour exécuter vos scripts et notebooks Spark SQL à l'aide d'identifiants utilisateur. Vous pouvez opérationnaliser votre travail avec la planification sans serveur depuis Workbench.

Ce document explique comment utiliser les fonctionnalités Explorer dans Dataplex

Coûts

Dataplex propose Explorer au niveau de traitement Premium.

Terminologie

Ce document utilise les termes suivants :

Environnement

Un environnement fournit des ressources de calcul sans serveur pour votre environnement Spark SQL des requêtes et des notebooks à exécuter dans un lac. Dataplex administrateur crée et gère les environnements.

Les administrateurs peuvent autoriser un ou plusieurs utilisateurs à exécuter des requêtes et des notebooks dans l'environnement configuré en leur attribuant Rôle de développeur ou les autorisations IAM associées.

De session

Lorsqu'un utilisateur autorisé choisit un environnement pour exécuter ses requêtes et notebooks, Dataplex utilise la configuration d'environnement spécifiée pour créer une session active spécifique à un utilisateur. Selon l'environnement configuration, si une session n'est pas utilisée, elle se termine automatiquement.

Le démarrage d'une nouvelle session par utilisateur prend quelques minutes. Une fois par session démarre, il exécute les requêtes et notebooks suivants pour le même utilisateur. Une session est actifs pendant 10 heures au maximum.

Pour un environnement, Dataplex ne crée qu'une seule session par utilisateur, partagé par les scripts Spark SQL et les notebooks Jupyter.

Dataplex utilise les identifiants utilisateur dans une session pour s'exécuter telles que l'interrogation des données de Cloud Storage dans BigQuery.

Nœud

Un nœud spécifie la capacité de calcul dans une configuration d'environnement. Un nœud correspond à quatre unités de calcul de données (DCU), soit un nombre comparable à quatre processeurs virtuels 16 Go de RAM.

Environnement par défaut

Vous pouvez créer un environnement par défaut par lac de données avec l'ID default. Un environnement par défaut doit utiliser une configuration par défaut. Une configuration par défaut comprend les éléments suivants:

  • Capacité de calcul d'un nœud
  • Taille du disque principal de 100 Go
  • Arrêt automatique de la session (temps d'arrêt automatique) défini sur 10 minutes d'inactivité
  • Le paramètre sessionSpec.enableFastStartup, qui est défini par défaut sur true Si ce paramètre est défini sur true, Dataplex pré-provisionne les sessions pour cet environnement afin qu'elles soient ce qui réduit le temps de démarrage initial de la session.
  • Une session à démarrage rapide est une session à nœud unique, que Dataplex frais facturés pour le SKU Premium Processing des taux similaires à une session standard. Une session permanente au maximum est disponible pour un démarrage rapide, ce qui entraîne des coûts même lorsqu'il n'est pas utilisé. Dataplex conserve cette session prédéfinie en activité pendant 10 heures, l'arrête, puis crée une nouvelle session.

Si vous ne sélectionnez pas explicitement un environnement et que vous avez configuré un environnement environnement, puis Dataplex utilise l'environnement par défaut pour créer des sessions.

Script SQL

Un script SQL est un script Spark SQL enregistré en tant que contenu dans un lac Dataplex. Vous pouvez enregistrer le script dans un lac le partager avec d'autres comptes principaux. Vous pouvez aussi planifier son exécution un job Spark sans serveur dans Dataplex. Dataplex permet Accès Spark SQL prêt à l'emploi aux tables mappées aux données dans Cloud Storage et BigQuery.

Notebook

Un notebook Python 3 est un notebook Jupyter que vous enregistrez en tant que contenu dans un lac Dataplex. Vous pouvez enregistrer un bloc-notes en tant que contenu dans d'un lac et de le partager avec d'autres comptes principaux, ou planifier son exécution Job par lot Spark sans serveur Dataproc dans Dataplex.

Pour les données dans BigQuery, vous pouvez accéder les tables directement via Spark sans utiliser la commande magique %%bigquery.

Avant de commencer

Avant de commencer, associez votre lac à Dataproc Metastore et accordez le rôle rôles requis.

Associer votre lac à Dataproc Metastore (DPMS)

Pour utiliser la fonctionnalité Explorer, procédez comme suit:

Découvrez comment configurer Dataproc Metastore avec Dataplex pour accéder aux métadonnées dans Spark

Rôles requis

Selon les actions que vous prévoyez d'effectuer, vous devez disposer de toutes les autorisations IAM suivantes de rôles. Tous les environnements d'un lac héritent des autorisations accordées au niveau du lac.

Rôles IAM Dataplex:

  • Lecteur Dataplex
  • Développeur Dataplex
  • Lecteur de métadonnées Dataplex
  • Lecteur de données Dataplex

Rôles supplémentaires:

Journalisation

Pour comprendre comment utiliser l'exploration, consultez les documents suivants:

Limitations connues

Cette section décrit les limites connues d'Explorer.

  • L'exploration est disponible pour les lacs dans les régions suivantes:

    • asia-northeast1
    • asia-southeast1
    • europe-west1
    • europe-west2
    • us-central1
    • us-east1
    • us-west1
  • Vous pouvez utiliser jusqu'à 10 environnements par région dans un projet. Pour plus d'informations sur l'augmentation de la limite de quota, consultez la section Utiliser des quotas.

  • Vous pouvez créer des environnements comportant jusqu'à 150 nœuds. La durée de la session pour les sessions utilisateur individuelles est limitée à 10 heures.

  • Les scripts Spark SQL ne peuvent interroger que les données d'un lac donné. Si vous souhaitez interroger les données d'un autre lac, vous devez basculer vers ce lac et sélectionner de l'environnement dans ce lac.

  • Lorsque vous annulez la suppression d'un projet, Dataplex ne restaure pas le contenu des ressources, telles que des scripts ou des notebooks SQL. Soyez prudent lorsque supprimer un projet avec des ressources de contenu Explorer.

  • Lorsque vous planifiez un notebook, si l'environnement comporte des packages personnalisés, programmer le notebook uniquement à l'aide de gcloud CLI. Pour plus plus d'informations, consultez Planifier des notebooks avec des packages personnalisés.

  • Si vous supprimez un environnement avant de supprimer les scripts et les notebooks, vous ne peut pas accéder à la page "Explorer". Par conséquent, veillez à supprimer le et les notebooks avant de supprimer un environnement dans Explorer.

  • Les sessions d'exploration ne sont pas compatibles avec les systèmes de fichiers HDFS (Hadoop Distributed File Systems). Ne pas stocker de données utilisateur dans une session d'exploration, car elles sont supprimées la session se termine.

  • La taille maximale d'un notebook ou d'un script SQL est de 1 Mo.

Créez un environnement

  1. Dans la console Google Cloud, accédez à Dataplex Gérer les lacs.

    Accéder à Dataplex

  2. Sélectionnez un lac Dataplex pour lequel vous souhaitez créer un environnement.

  3. Cliquez sur l'onglet Environnements.

  4. Cliquez sur Créer un environnement.

  5. Dans le champ Nom à afficher, saisissez le nom de votre environnement.

  6. Dans le champ ID de l'environnement, saisissez un identifiant unique.

  7. Facultatif: saisissez une description du nouvel environnement.

  8. Dans le volet Configure compute (Configurer le calcul), spécifiez les éléments suivants:

    1. Nombre de nœuds: le nombre de nœuds à provisionner. pour les sessions utilisateur créées pour cet environnement.
    2. Nombre maximal de nœuds: le nombre maximal de nœuds qui Dataplex peut effectuer un autoscaling dans les sessions utilisateur associées dans cet environnement.
    3. Taille du disque principal: la quantité de disque associée à chaque un nœud provisionné.
    4. Auto shutdown time (Temps d'arrêt automatique) : temps d'inactivité au terme duquel Dataplex ferme automatiquement les sessions utilisateur associées environnement. Vous pouvez définir un minimum de 10 minutes et un maximum de 60 minutes.
  9. Dans le volet Packages logiciels (facultatif), vous pouvez spécifier des Packages Python, fichiers JAR et propriétés Spark à installer sur des sessions utilisateur provisionnés pour cet environnement.

    Lorsque vous créez un environnement et indiquez le chemin d'accès Cloud Storage Fichiers JAR Java ou packages Python, pour que Dataplex puisse installer les fichiers JAR ou packages, assurez-vous que Cloud Dataplex L'agent de service dispose des autorisations nécessaires pour accéder à Cloud Storage .

  10. Cliquez sur Créer.

Remarques

  • Un nœud correspond à quatre unités de calcul de données (DCU), ce qui est comparable à 4 processeurs virtuels et 16 Go de RAM.

  • Vous pouvez créer un environnement avec un ou trois nœuds ou plus.

  • Si vous êtes administrateur de lac, vous pouvez configurer des environnements à l'avance, permettant aux utilisateurs d'exécuter leurs charges de travail à l'aide des configurations prédéfinies.

  • Bien que les environnements puissent être partagés avec plusieurs utilisateurs, Dataplex crée une session distincte par utilisateur à l'aide de l'environnement configuration.

Créer un environnement par défaut

Consultez la configuration requise pour un environnement par défaut.

Console

  1. Ouvrez Dataplex dans la console Google Cloud.

    Accéder à Dataplex

  2. Accédez à la vue Gérer.

  3. Sélectionnez un lac Dataplex.

  4. Cliquez sur l'onglet Environnements.

  5. Cliquez sur Créer un environnement par défaut.

gcloud

Pour créer un environnement par défaut avec le démarrage rapide activé, exécutez la commande suivante : commande:

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Explorer des données à l'aide de Spark SQL Workbench

Pour explorer des données BigQuery et Cloud Storage, utilisez Spark SQL des scripts.

Créer et enregistrer un script

  1. Dans la console Google Cloud, accédez à la page Explorer de Dataplex. .

  2. Dans la vue Explorer, sélectionnez le lac contenant les éléments de données que vous souhaitez à explorer.

  3. Dans le navigateur de ressources, développez le lac. Le résultat suivant s'affiche : dossiers:

    • Données: contient toutes les bases de données et les tables de l'instance DPMS relié à votre lac, y compris les tables des lacs Hudi, Iceberg et Delta.
    • Notebooks: contient tous les notebooks créés dans le lac sélectionné.
    • Scripts Spark SQL: contient tous les scripts Spark SQL créés dans le lac sélectionné.
  4. Développez Données, puis sélectionnez la base de données et la table requises.

  5. Pour utiliser un exemple de requête, cliquez sur REQUÊTE. Environnement de travail Spark SQL remplit automatiquement un nouvel onglet avec un exemple de requête.

  6. Pour créer un script, dans l'éditeur SQL Spark, cliquez sur Nouveau script. et saisissez vos requêtes.

  7. Pour enregistrer le script, sélectionnez Enregistrer > Enregistrer le script.

Exécuter un script

  1. Dans l'éditeur SQL Spark, cliquez sur l'onglet contenant la requête que vous souhaitez exécuter.

  2. Cliquez sur Sélectionner un environnement. Sélectionnez l'environnement dans lequel pour exécuter la requête. Si vous ne sélectionnez aucun environnement, Dataplex utilise l'environnement par défaut pour créer une session par utilisateur.

    Vous pouvez exécuter plusieurs requêtes Spark SQL dans le même script en séparant les avec des points-virgules.

  3. Cliquez sur Exécuter.

  4. Afficher les résultats de l'historique des requêtes pour chacune des requêtes du script à l'aide de la liste déroulante.

Planifier un script

Vous pouvez planifier l'exécution d'un script en tant que tâche Dataplex. Pour en savoir plus, consultez Créer et gérer des planifications pour les scripts SQL.

Partager un script

Vous pouvez partager un script avec d'autres membres de l'organisation à l'aide d'autorisations IAM:

  1. Dans la vue Explore (Explorer), cliquez sur le script Spark SQL que vous souhaitez partager.

  2. Dans le menu Plus, cliquez sur Partager.

  3. Passez en revue les autorisations. Ajouter ou supprimer un lecteur, un éditeur et un administrateur pour le script partagé.

Après avoir partagé un script, les utilisateurs disposant d'autorisations de lecture ou de modification au niveau du lac peuvent accéder au lac et travailler sur le script partagé.

Explorer des données BigQuery et Cloud Storage à l'aide de Spark SQL

Pour tout ensemble de données BigQuery ajouté en tant qu'élément à une zone, Dataplex permet à Spark SQL d'accéder directement à toutes les tables qu'il contient ensemble de données. Vous pouvez interroger des données dans Dataplex à l'aide de scripts Spark SQL. notebooks. Exemple :

 select * from ZONE_ID.TABLE_ID

Si vos éléments sont mappés à des buckets Cloud Storage dans la même zone, Dataplex fournit une liste unifiée de tables que vous pouvez à l'aide de Spark.

Explorer des données à l'aide de notebooks

Cette section explique comment créer, planifier, partager, importer et exporter notebooks.

Créer et enregistrer un notebook

  1. Dans la console Google Cloud, accédez à la page Explorer de Dataplex. .

  2. Dans la vue Explorer, sélectionnez un lac.

  3. Développez le lac de données, puis cliquez sur le dossier Notebooks.

  4. Cliquez sur Nouveau notebook.

  5. Dans le champ Chemin d'accès au notebook, indiquez le nom du notebook.

  6. (Facultatif) Dans le champ Description, saisissez une description des nouvelles notebook.

  7. (Facultatif) Ajoutez des libellés.

  8. Cliquez sur Créer un notebook. Un notebook est créé.

  9. Pour ouvrir le notebook créé, cliquez sur Ouvrir le notebook.

  10. Sélectionnez un environnement dans lequel vous souhaitez que Dataplex crée un lors de la création ou de l'ouverture de votre notebook. Assurez-vous que vous sélectionnez un environnement contenant des packages de confiance.

    Si vous ne sélectionnez aucun environnement, Dataplex utilise l'environnement par défaut environnement. Si vous n'avez pas d'environnement, créez-en un. Pour plus plus d'informations, consultez Créer un environnement.

    Vous pouvez maintenant explorer vos données en écrivant du code Python et en enregistrant le notebook après l'exploration. Vous pourrez ensuite prévisualiser le notebook créé et examiner ses sans créer de session ni exécuter le code.

Planifier un notebook

Vous pouvez programmer l'exécution d'un notebook en tant que tâche Dataplex. Pour en savoir plus, consultez Créer et gérer des planifications pour les notebooks.

Partager un notebook

Vous pouvez partager un notebook avec d'autres membres de l'organisation à l'aide des autorisations IAM:

  1. Dans la vue Explore (Explorer), cliquez sur le dossier Notebooks.

  2. Sélectionnez le notebook Jupyter que vous souhaitez partager.

  3. Cliquez sur Partager,

  4. Passez en revue les autorisations. Ajouter ou supprimer un lecteur, un éditeur et un administrateur pour ce notebook.

    Après avoir partagé un notebook, les utilisateurs disposant d'autorisations d'affichage ou de modification au niveau du lac peuvent accéder au lac et travailler sur le notebook partagé.

Importer un notebook

Vous pouvez importer un notebook à partir d'un bucket Cloud Storage:

  1. Dans la vue Explore (Explorer), cliquez sur le dossier Notebooks.

  2. Cliquez sur Importer.

  3. Accédez au bucket Cloud Storage contenant le notebook que vous à importer.

  4. Sélectionnez le notebook, indiquez un nom, puis cliquez sur Importer.

    Le notebook importé est créé dans le dossier Notebooks. Vous pouvez ouvrir, modifier, partager et planifier le notebook importé.

Exporter un notebook

Vous pouvez exporter un notebook vers un bucket Cloud Storage utilisés par d'autres membres de l'organisation disposant d'autorisations IAM.

  1. Dans la vue Explore (Explorer), cliquez sur le dossier Notebooks.

  2. Marquez le notebook que vous souhaitez exporter.

  3. Cliquez sur le menu , puis sur Exporter :

  4. Saisissez le chemin d'accès Cloud Storage vers lequel vous souhaitez exporter le notebook.

  5. Cliquez sur Exporter le notebook.

Étape suivante