Usar el complemento de BigQuery para JupyterLab

Para solicitar comentarios o asistencia sobre esta función, envía un correo a bigquery-ide-plugin@google.com.

En este documento se explica cómo instalar y usar el complemento BigQuery JupyterLab para hacer lo siguiente:

  • Explora tus datos de BigQuery.
  • Usar la API BigQuery DataFrames.
  • Despliega un cuaderno de BigQuery DataFrames en Cloud Composer.

El complemento JupyterLab de BigQuery incluye todas las funciones del complemento JupyterLab de Dataproc, como crear una plantilla de tiempo de ejecución de Dataproc Serverless, iniciar y gestionar cuadernos, desarrollar con Apache Spark, implementar tu código y gestionar tus recursos.

Instalar el complemento BigQuery JupyterLab

Para instalar y usar el complemento BigQuery JupyterLab, sigue estos pasos:

  1. En tu terminal local, comprueba que tienes Python 3.8 o una versión posterior instalada en tu sistema:

    python3 --version
    
  2. Instala gcloud CLI.

  3. En tu terminal local, inicializa gcloud CLI:

    gcloud init
    
  4. Instala Pipenv, una herramienta de entorno virtual de Python:

    pip3 install pipenv
    
  5. Crea un entorno virtual:

    pipenv shell
    
  6. Instala JupyterLab en el nuevo entorno virtual:

    pipenv install jupyterlab
    
  7. Instala el complemento BigQuery JupyterLab:

    pipenv install bigquery-jupyter-plugin
    
  8. Si la versión de JupyterLab que tienes instalada es anterior a la 4.0.0, habilita la extensión del complemento:

    jupyter server extension enable bigquery_jupyter_plugin
    
  9. Inicia JupyterLab:

    jupyter lab
    

    JupyterLab se abre en el navegador.

Actualizar la configuración del proyecto y de la región

De forma predeterminada, la sesión se ejecuta en el proyecto y la región que definiste al ejecutar gcloud init. Para cambiar los ajustes de proyecto y región de tu sesión, haz lo siguiente:

  • En el menú de JupyterLab, haz clic en Configuración > Configuración de Google BigQuery.

Debes reiniciar el complemento para que los cambios surtan efecto.

Explorar datos

Para trabajar con tus datos de BigQuery en JupyterLab, haz lo siguiente:

  1. En la barra lateral de JupyterLab, abre el panel Explorador de conjuntos de datos: haz clic en el icono de Icono Explorador de conjuntos de datos. conjuntos de datos.
  2. Para desplegar un proyecto, en el panel Explorador de conjuntos de datos, haz clic en la flecha de expansión situada junto al nombre del proyecto.

    En el panel Explorador de conjuntos de datos se muestra un proyecto ampliado y una lista de conjuntos de datos.

    El panel Explorador de conjuntos de datos muestra todos los conjuntos de datos de un proyecto que se encuentran en la región de BigQuery que has configurado para la sesión. Puedes interactuar con un proyecto y un conjunto de datos de varias formas:

    • Para ver información sobre un conjunto de datos, haz clic en su nombre.
    • Para mostrar todas las tablas de un conjunto de datos, haga clic en la flecha de expansión situada junto al conjunto de datos.
    • Para ver información sobre una tabla, haz clic en su nombre.
    • Para cambiar el proyecto o la región de BigQuery, actualiza la configuración.

Ejecutar cuadernos

Para consultar tus datos de BigQuery desde JupyterLab, haz lo siguiente:

  1. Para abrir la página del menú de aplicaciones, haz clic en Archivo > Nuevo menú de aplicaciones.
  2. En la sección Notebooks de BigQuery, haz clic en la tarjeta DataFrames de BigQuery. Se abrirá un cuaderno nuevo que te mostrará cómo empezar a usar los DataFrames de BigQuery.

Los cuadernos de BigQuery DataFrames admiten el desarrollo de Python en un kernel de Python local. Las operaciones de BigQuery DataFrames se ejecutan de forma remota en BigQuery, pero el resto del código se ejecuta de forma local en tu máquina. Cuando se ejecuta una operación en BigQuery, se muestran un ID de trabajo de consulta y un enlace al trabajo debajo de la celda de código.

  • Para ver el trabajo en la Google Cloud consola, haz clic en Abrir trabajo.

Desplegar un cuaderno de BigQuery DataFrames

Puedes desplegar un cuaderno de BigQuery DataFrames en Cloud Composer mediante una plantilla de tiempo de ejecución de Dataproc sin servidor. Debes usar la versión 2.1 del tiempo de ejecución o una posterior.

  1. En tu cuaderno de JupyterLab, haz clic en calendar_monthProgramador de trabajos.
  2. En Nombre de la tarea, escribe un nombre único para la tarea.
  3. En Environment (Entorno), introduce el nombre del entorno de Cloud Composer en el que quieras desplegar el trabajo.
  4. Si el cuaderno tiene parámetros, añádelos.
  5. Introduce el nombre de la plantilla de tiempo de ejecución sin servidor.
  6. Para gestionar los fallos de ejecución de los cuadernos, introduce un número entero en Número de reintentos y un valor (en minutos) en Retraso de reintento.
  7. Selecciona las notificaciones de ejecución que quieras enviar y, a continuación, introduce los destinatarios.

    Las notificaciones se envían mediante la configuración SMTP de Airflow.

  8. Selecciona una programación para el cuaderno.

  9. Haz clic en Crear.

Cuando programes correctamente tu cuaderno, aparecerá en la lista de tareas programadas del entorno de Cloud Composer que hayas seleccionado.

Siguientes pasos