Utilizzare il plug-in BigQuery JupyterLab
Per richiedere assistenza o feedback per questa funzione, invia un'email a bigquery-ide-plugin@google.com.
Questo documento mostra come installare e utilizzare BigQuery Plug-in JupyterLab per eseguire queste operazioni:
- Esplorare i dati BigQuery.
- Utilizza l'API BigQuery DataFrames.
- Esegui il deployment di un notebook BigQuery DataFrames in Cloud Composer.
Il plug-in JupyterLab di BigQuery include tutti i delle funzionalità plug-in JupyterLab di Dataproc, come la creazione di un modello di runtime Dataproc serverless, l'avvio e la gestione di blocchi note, lo sviluppo con Apache Spark, il deployment del codice, e la gestione delle risorse.
Installa il plug-in BigQuery JupyterLab
Per installare e utilizzare il plug-in JupyterLab di BigQuery, segui questi passaggi passaggi:
Nel terminale locale, assicurati di avere Python 3.8 o successivo. installati sul sistema:
python3 --version
Nel tuo terminale locale, inizializza gcloud CLI:
gcloud init
Installa Pipenv, uno strumento per gli ambienti virtuali Python:
pip3 install pipenv
Crea un nuovo ambiente virtuale:
pipenv shell
Installa JupyterLab nel nuovo ambiente virtuale:
pipenv install jupyterlab
Installa il plug-in BigQuery JupyterLab:
pipenv install bigquery-jupyter-plugin
Se la versione installata di JupyterLab è precedente rispetto alla 4.0.0, quindi abilita l'estensione plug-in:
jupyter server extension enable bigquery_jupyter_plugin
Avvia JupyterLab:
jupyter lab
JupyterLab si apre nel browser.
Aggiornare le impostazioni del progetto e della regione
Per impostazione predefinita, la sessione viene eseguita nel progetto e nella regione impostati quando hai eseguito gcloud init
. Per modificare le impostazioni del progetto e della regione per il tuo
sessione, procedi nel seguente modo:
- Nel menu JupyterLab, fai clic su Impostazioni > Impostazioni di Google BigQuery.
Affinché le modifiche abbiano effetto, dovrai riavviare il plug-in.
Esplora i dati
Per lavorare con i tuoi dati BigQuery in JupyterLab, segui questi passaggi:
- Nella barra laterale di JupyterLab, apri il riquadro Esploratore set di dati: fai clic sull'icona set di dati.
Per espandere un progetto, nel riquadro Esplora set di dati fai clic sulla Freccia di espansione
accanto alla del progetto.Il riquadro Esplora set di dati mostra tutti i set di dati di un progetto che si trovano nella regione BigQuery per la quale hai configurato durante la sessione. Puoi interagire con un progetto e un set di dati in vari modi:
- Per visualizzare le informazioni su un set di dati, fai clic sul nome del set di dati.
- Per visualizzare tutte le tabelle di un set di dati, fai clic sulla freccia di espansione accanto al set di dati.
- Per visualizzare le informazioni su una tabella, fai clic sul nome della tabella.
- Per modificare il progetto o la regione BigQuery, aggiorna le impostazioni.
Esegui blocchi note
Per eseguire query sui dati BigQuery da JupyterLab:
- Per aprire la pagina Avvio app, fai clic su File > Nuovo Avvio app.
- Nella sezione BigQuery Notebook, fai clic sulla scheda DataFrame BigQuery. Si apre un nuovo blocco note che mostra come iniziare a utilizzare DataFrames di BigQuery.
I blocchi note BigQuery DataFrames supportano lo sviluppo Python in un ambiente con il kernel Python. Le operazioni di BigQuery DataFrames vengono eseguite da remoto BigQuery, ma il resto del codice viene eseguito localmente in una macchina virtuale. Quando un'operazione viene eseguita in BigQuery, sotto la cella di codice vengono visualizzati un ID job query e un link al job.
- Per visualizzare il job nella console Google Cloud, fai clic su Apri job.
Esegui il deployment di un blocco note BigQuery DataFrames
Puoi eseguire il deployment di un blocco note BigQuery DataFrames in Cloud Composer mediante un modello di runtime Dataproc Serverless. Devi utilizzare la versione 2.1 o successive del runtime.
- Nel blocco note JupyterLab, fai clic calendar_monthPianificazione job.
- In Nome job, inserisci un nome univoco per il job.
- In Ambiente, inserisci il nome di Cloud Composer. nel quale vuoi eseguire il deployment del job.
- Se il blocco note è parametrizzato, aggiungi parametri.
- Inserisci il nome del modello di runtime serverless.
- Per gestire gli errori di esecuzione del blocco note, inserisci un numero intero per Conteggio nuovi tentativi e un valore (in minuti) per Ritardo tra tentativi.
Seleziona le notifiche di esecuzione da inviare e inserisci i destinatari.
Le notifiche vengono inviate utilizzando la configurazione SMTP di Airflow.
Seleziona una pianificazione per il blocco note.
Fai clic su Crea.
Quando pianifichi correttamente il notebook, questo viene visualizzato nell'elenco dei job pianificati nell'ambiente Cloud Composer selezionato.
Passaggi successivi
- Prova la Guida rapida di BigQuery DataFrames.
- Scopri di più sull'API Python BigQuery DataFrames.
- Utilizza JupyterLab per sessioni batch e del blocco note serverless con Dataproc.