Utiliser le plug-in BigQuery JupyterLab

Pour demander un commentaire ou une assistance pour cette fonctionnalité, envoyez un e-mail à l'adresse bigquery-ide-plugin@google.com.

Ce document explique comment installer et utiliser le plug-in BigQuery JupyterLab pour effectuer les opérations suivantes :

  • Explorez vos données BigQuery.
  • Utilisez l'API BigQuery DataFrames.
  • Déployez un notebook BigQuery DataFrames sur Cloud Composer

Le plug-in BigQuery JupyterLab inclut toutes les fonctionnalités du plug-in Dataproc JupyterLab, comme la création d'un modèle d'exécution sans serveur Dataproc, le lancement et la gestion des notebooks, le développement avec Apache Spark, le déploiement de votre code, et la gestion de vos ressources.

Installer le plug-in BigQuery JupyterLab

Pour installer et utiliser le plug-in BigQuery JupyterLab, procédez comme suit :

  1. Dans votre terminal local, vérifiez que Python 3.8 ou une version ultérieure est installé sur votre système :

    python3 --version
    
  2. Installez gcloud CLI.

  3. Dans votre terminal local, initialisez gcloud CLI :

    gcloud init
    
  4. Installez Pipenv, un outil d'environnement virtuel Python :

    pip3 install pipenv
    
  5. Créez un environnement virtuel :

    pipenv shell
    
  6. Installez JupyterLab dans le nouvel environnement virtuel :

    pipenv install jupyterlab
    
  7. Installez le plug-in BigQuery JupyterLab :

    pipenv install bigquery-jupyter-plugin
    
  8. Si la version de JupyterLab installée est antérieure à la version 4.0.0, activez l'extension du plug-in :

    jupyter server extension enable bigquery_jupyter_plugin
    
  9. Lancez JupyterLab :

    jupyter lab
    

    JupyterLab s'ouvre dans votre navigateur.

.

Mettre à jour les paramètres de votre projet et de votre région

Par défaut, votre session s'exécute dans le projet et la région que vous avez définis en exécutant gcloud init. Pour modifier les paramètres de projet et de région, procédez comme suit :

  • Dans le menu JupyterLab, cliquez sur Paramètres > Paramètres Google BigQuery.

Vous devez redémarrer le plug-in pour que les modifications soient prises en compte.

Explorer les données

Pour utiliser vos données BigQuery dans JupyterLab, procédez comme suit :

  1. Dans la barre latérale JupyterLab, ouvrez le volet Explorateur d'ensembles de données : cliquez sur l'icône Ensembles de données Icône Explorateur d'ensembles de données..
  2. Pour développer un projet, dans le volet Explorateur d'ensembles de données, cliquez sur la flèche de développement à côté du nom du projet.

    Le volet "Explorateur d'ensembles de données" affiche un projet développé et une liste d'ensembles de données.

    Le volet Explorateur d'ensembles de données affiche tous les ensembles de données d'un projet qui se trouvent dans la région BigQuery que vous avez configurée pour la session. Vous pouvez interagir avec un projet et un ensemble de données de différentes manières :

    • Pour afficher des informations sur un ensemble de données, cliquez sur son nom.
    • Pour afficher toutes les tables d'un ensemble de données, cliquez sur la flèche de développement à côté de l'ensemble de données.
    • Pour afficher des informations sur une table, cliquez sur son nom.
    • Pour modifier le projet ou la région BigQuery, modifiez vos paramètres.

Exécuter des notebooks

Pour interroger vos données BigQuery à partir de JupyterLab, procédez comme suit :

  1. Pour ouvrir la page du lanceur d'applications, cliquez sur Fichier > Nouveau lanceur d'applications.
  2. Dans la section Notebooks BigQuery, cliquez sur la fiche BigQuery DataFrames. Un nouveau notebook s'ouvre et vous montre comment faire vos premiers pas avec BigQuery DataFrames.

Les notebooks BigQuery DataFrames sont compatibles avec le développement Python dans un noyau Python local. Les opérations BigQuery DataFrames sont exécutées à distance sur BigQuery, mais le reste du code est exécuté localement sur votre machine. Lorsqu'une opération est exécutée dans BigQuery, un ID de job de requête et le lien vers le job apparaissent sous la cellule de code.

  • Pour afficher le job dans la console Google Cloud, cliquez sur Ouvrir le job.

Déployer un notebook BigQuery DataFrames

Vous pouvez déployer un notebook BigQuery DataFrames sur Cloud Composer à l'aide d'un modèle d'exécution sans serveur Dataproc. Vous devez utiliser une version d'exécution 2.1 ou ultérieure.

  1. Dans votre notebook JupyterLab, cliquez sur calendar_monthPlanificateur de jobs.
  2. Dans le champ Nom du job, saisissez un nom unique pour votre job.
  3. Dans le champ Environnement, saisissez le nom de l'environnement Cloud Composer dans lequel vous souhaitez déployer le job.
  4. Si votre notebook est paramétré, ajoutez des paramètres.
  5. Saisissez le nom du modèle d'exécution sans serveur.
  6. Pour gérer les échecs d'exécution du notebook, saisissez un entier pour le nombre de tentatives et une valeur (en minutes) pour le délai entre les tentatives.
  7. Sélectionnez les notifications d'exécution à envoyer, puis saisissez les destinataires.

    Les notifications sont envoyées à l'aide de la configuration SMTP Airflow.

  8. Sélectionnez une programmation pour le notebook.

  9. Cliquez sur Créer.

Une fois votre notebook programmé, il figure dans la liste des des jobs planifiés dans l'environnement Cloud Composer sélectionné.

Étapes suivantes