Utilizzare il plug-in JupyterLab di BigQuery

Per richiedere feedback o assistenza per questa funzionalità, invia un'email all'indirizzo bigquery-ide-plugin@google.com.

Questo documento mostra come installare e utilizzare il plug-in JupyterLab di BigQuery per:

  • Esplorare i dati BigQuery.
  • Utilizzare l'API BigQuery DataFrames.
  • Esegui il deployment di un blocco note di BigQuery DataFrames su Cloud Composer.

Il plug-in JupyterLab di BigQuery include tutte le funzionalità del plug-in JupyterLab di Dataproc, come la creazione di un modello di runtime Dataproc Serverless, l'avvio e la gestione dei blocchi note, lo sviluppo con Apache Spark, il deployment del codice e la gestione delle risorse.

Installa il plug-in JupyterLab di BigQuery

Per installare e utilizzare il plug-in JupyterLab di BigQuery, segui questi passaggi:

  1. Nel terminale locale, assicurati che sul sistema sia installato Python 3.8 o successivo:

    python3 --version
    
  2. Installa gcloud CLI.

  3. Nel terminale locale, inizializza gcloud CLI:

    gcloud init
    
  4. Installa Pipenv, uno strumento dell'ambiente virtuale Python:

    pip3 install pipenv
    
  5. Crea un nuovo ambiente virtuale:

    pipenv shell
    
  6. Installa JupyterLab nel nuovo ambiente virtuale:

    pipenv install jupyterlab
    
  7. Installa il plug-in JupyterLab di BigQuery:

    pipenv install bigquery-jupyter-plugin
    
  8. Se la versione installata di JupyterLab è precedente alla 4.0.0, abilita l'estensione plug-in:

    jupyter server extension enable bigquery_jupyter_plugin
    
  9. Avvia JupyterLab:

    jupyter lab
    

    JupyterLab si apre nel tuo browser.

Aggiorna le impostazioni del progetto e della regione

Per impostazione predefinita, la sessione viene eseguita nel progetto e nella regione che hai impostato quando hai eseguito gcloud init. Per modificare le impostazioni di progetto e regione per la sessione, segui questi passaggi:

  • Nel menu JupyterLab, fai clic su Impostazioni > Impostazioni di Google BigQuery.

Affinché le modifiche abbiano effetto, dovrai riavviare il plug-in.

Esplora i dati

Per lavorare con i tuoi dati BigQuery in JupyterLab, segui questi passaggi:

  1. Nella barra laterale JupyterLab, apri il riquadro Esplora set di dati: fai clic sull'icona dei set di dati Icona Esplora set di dati..
  2. Per espandere un progetto, nel riquadro Esplora set di dati fai clic sulla freccia di espansione accanto al nome del progetto.

    Il riquadro Esplora set di dati mostra un progetto espanso e un elenco di set di dati.

    Il riquadro Esplora set di dati mostra tutti i set di dati di un progetto che si trovano nella regione BigQuery configurata per la sessione. Puoi interagire con un progetto e un set di dati in vari modi:

    • Per visualizzare le informazioni su un set di dati, fai clic sul nome del set di dati.
    • Per visualizzare tutte le tabelle in un set di dati, fai clic sulla freccia di espansione accanto al set di dati.
    • Per visualizzare le informazioni su una tabella, fai clic sul suo nome.
    • Per modificare il progetto o la regione BigQuery, aggiorna le impostazioni.

Esegui blocchi note

Per eseguire query sui dati BigQuery da JupyterLab, segui questi passaggi:

  1. Per aprire la pagina Avvio app, fai clic su File > Nuovo Avvio app.
  2. Nella sezione Blocchi note BigQuery, fai clic sulla scheda DataFrames BigQuery. Si apre un nuovo blocco note che mostra come iniziare a utilizzare BigQuery DataFrames.

I blocchi note BigQuery DataFrames supportano lo sviluppo Python in un kernel Python locale. Le operazioni di BigQuery DataFrames vengono eseguite da remoto su BigQuery, ma il resto del codice viene eseguito localmente sulla macchina. Quando un'operazione viene eseguita in BigQuery, sotto la cella di codice vengono visualizzati un ID job di query e un link al job.

  • Per visualizzare il job nella console Google Cloud, fai clic su Apri job.

Esegui il deployment di un blocco note BigQuery DataFrames

Puoi eseguire il deployment di un blocco note BigQuery DataFrames in Cloud Composer utilizzando un modello di runtime serverless di Dataproc. Devi utilizzare la versione 2.1 o versioni successive del runtime.

  1. Nel blocco note JupyterLab, fai clic su calendar_monthJob Scheduler.
  2. In Nome job, inserisci un nome univoco per il job.
  3. In Ambiente, inserisci il nome dell'ambiente Cloud Composer in cui vuoi eseguire il deployment del job.
  4. Se il blocco note è parametrizzato, aggiungi parametri.
  5. Inserisci il nome del modello di runtime serverless.
  6. Per gestire gli errori di esecuzione del blocco note, inserisci un numero intero per Conteggio tentativi e un valore (in minuti) per Ritardo nuovi tentativi.
  7. Seleziona le notifiche di esecuzione da inviare e inserisci i destinatari.

    Le notifiche vengono inviate utilizzando la configurazione SMTP di Airflow.

  8. Seleziona una pianificazione per il blocco note.

  9. Fai clic su Crea.

Una volta pianificato correttamente, il blocco note viene visualizzato nell'elenco dei job pianificati nell'ambiente Cloud Composer selezionato.

Passaggi successivi