BigQuery JupyterLab-Plug-in verwenden

Wenn Sie Feedback oder Unterstützung für dieses Feature benötigen, senden Sie eine E-Mail an bigquery-ide-plugin@google.com.

In diesem Dokument wird beschrieben, wie Sie das BigQuery-JupyterLab-Plug-in installieren und verwenden, um Folgendes zu tun:

  • BigQuery-Daten analysieren
  • Verwenden Sie die BigQuery DataFrames API.
  • BigQuery DataFrames-Notebook in Cloud Composer bereitstellen

Das BigQuery JupyterLab-Plug-in umfasst alle Funktionen des Dataproc JupyterLab-Plug-ins, z. B. das Erstellen einer Dataproc Serverless-Laufzeitvorlage, das Starten und Verwalten von Notebooks und die Entwicklung mit Apache. Spark, Code bereitstellen und Ressourcen verwalten

BigQuery JupyterLab-Plug-in installieren

So installieren und verwenden Sie das BigQuery JupyterLab-Plug-in:

  1. Prüfen Sie in Ihrem lokalen Terminal, ob Python 3.8 oder höher auf dem System installiert ist:

    python3 --version
    
  2. Installieren Sie die gcloud CLI.

  3. Initialisieren Sie in Ihrem lokalen Terminal die gcloud CLI:

    gcloud init
    
  4. Installieren Sie Pipenv, ein Tool für virtuelle Python-Umgebungen:

    pip3 install pipenv
    
  5. Erstellen Sie eine neue virtuelle Umgebung:

    pipenv shell
    
  6. Installieren Sie JupyterLab in der neuen virtuellen Umgebung:

    pipenv install jupyterlab
    
  7. Installieren Sie das BigQuery JupyterLab-Plug-in:

    pipenv install bigquery-jupyter-plugin
    
  8. Wenn die installierte Version von JupyterLab älter als 4.0.0 ist, aktivieren Sie die Plug-in-Erweiterung:

    jupyter server extension enable bigquery_jupyter_plugin
    
  9. So starten Sie JupyterLab:

    jupyter lab
    

    JupyterLab wird in Ihrem Browser geöffnet.

Projekt- und Regionseinstellungen aktualisieren

Standardmäßig wird Ihre Sitzung in dem Projekt und in der Region ausgeführt, die Sie beim Ausführen von gcloud init festgelegt haben. So ändern Sie die Projekt- und Regionseinstellungen für Ihre Sitzung:

  • Klicken Sie im JupyterLab-Menü auf Einstellungen > Google BigQuery-Einstellungen.

Sie müssen das Plug-in neu starten, damit die Änderungen wirksam werden.

Daten auswerten

So arbeiten Sie mit Ihren BigQuery-Daten in JupyterLab:

  1. Öffnen Sie in der JupyterLab-Seitenleiste den Bereich Dataset Explorer (Datensatz-Explorer): Klicken Sie auf das Symbol für Datensätze Symbol für den Datensatz-Explorer..
  2. Wenn Sie ein Projekt maximieren möchten, klicken Sie im Bereich Dataset Explorer neben dem Projektnamen auf den Maximierungspfeil .

    Im Bereich „Dataset Explorer“ sehen Sie ein maximiertes Projekt und eine Liste der Datasets.

    Im Bereich Dataset Explorer werden alle Datasets in einem Projekt angezeigt, die sich in der BigQuery-Region befinden, die Sie für die Sitzung konfiguriert haben. Sie können auf verschiedene Arten mit einem Projekt und einem Dataset interagieren:

    • Klicken Sie auf den Namen eines Datasets, um Informationen dazu aufzurufen.
    • Zum Aufrufen aller Tabellen in einem Dataset klicken Sie neben dem Dataset auf den Erweiterungspfeil .
    • Klicken Sie auf den Namen der Tabelle, um Informationen zu einer Tabelle aufzurufen.
    • Zum Ändern des Projekts oder der BigQuery-Region aktualisieren Sie Ihre Einstellungen.

Notebooks ausführen

So fragen Sie Ihre BigQuery-Daten aus JupyterLab ab:

  1. Klicken Sie auf Datei > Neuer Launcher, um die Launcher-Seite zu öffnen.
  2. Klicken Sie im Bereich BigQuery-Notebooks auf die Karte BigQuery DataFrames. Es wird ein neues Notebook geöffnet, in dem die ersten Schritte mit BigQuery DataFrames beschrieben werden.

BigQuery DataFrames-Notebooks unterstützen die Python-Entwicklung in einem lokalen Python-Kernel. BigQuery DataFrames-Vorgänge werden aus der Ferne in BigQuery ausgeführt, der Rest des Codes jedoch lokal auf Ihrem Computer. Wenn ein Vorgang in BigQuery ausgeführt wird, werden unter der Codezelle eine Abfragejob-ID und ein Link zum Job angezeigt.

  • Klicken Sie auf Job öffnen, um den Job in der Google Cloud Console aufzurufen.

BigQuery DataFrames-Notebook bereitstellen

Sie können ein BigQuery DataFrames-Notebook mithilfe einer serverlosen Dataproc-Laufzeitvorlage in Cloud Composer bereitstellen. Sie müssen mindestens die Laufzeitversion 2.1 verwenden.

  1. Klicken Sie in Ihrem JupyterLab-Notebook auf calendar_monthJob Scheduler.
  2. Geben Sie unter Jobname einen eindeutigen Namen für den Job ein.
  3. Geben Sie unter Umgebung den Namen der Cloud Composer-Umgebung ein, in der Sie den Job bereitstellen möchten.
  4. Wenn Ihr Notebook parametrisiert ist, fügen Sie Parameter hinzu.
  5. Geben Sie den Namen der Vorlage für die serverlose Laufzeit ein.
  6. Geben Sie für die Fehlerbehandlung bei der Notebookausführung eine Ganzzahl für Wiederholungsanzahl und einen Wert (in Minuten) für Wiederholungsverzögerung ein.
  7. Wählen Sie aus, welche Ausführungsbenachrichtigungen gesendet werden sollen, und geben Sie dann die Empfänger ein.

    Benachrichtigungen werden über die SMTP-Konfiguration von Airflow gesendet.

  8. Wählen Sie einen Zeitplan für das Notebook aus.

  9. Klicken Sie auf Erstellen.

Wenn Sie Ihr Notebook erfolgreich geplant haben, wird es in der Liste der geplanten Jobs in der ausgewählten Cloud Composer-Umgebung angezeigt.

Nächste Schritte