Dataproc Jupyter Komponente

Sie können zusätzliche Komponenten installieren, wenn Sie einen Dataproc-Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird die Jupyter-Komponente erläutert.

Die Jupyter-Komponente ist ein webbasiertes Notebook für interaktive Datenanalysen und unterstützt die JupyterLab-Webbenutzeroberfläche. Die Jupyter-Webbenutzeroberfläche ist über Port 8123 auf dem ersten Masterknoten des Clusters verfügbar.

Das Jupyter Notebook verwendet einen Python-Kernel zur Ausführung von Spark-Code und einen PySpark-Kernel. Notebooks werden standardmäßig im Dataproc-Staging-Bucket in Cloud Storage gespeichert. Dieser Bucket wird vom Nutzer festgelegt oder bei der Clustererstellung automatisch generiert. Der Standort kann zum Zeitpunkt der Clustererstellung über das dataproc:jupyter.notebook.gcs.dir-Attribut geändert werden.

Jupyter und Anaconda installieren

Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen. Sie können Komponenten in Cluster einfügen, die mit Dataproc Version 1.3 oder höher erstellt wurden. Die Jupyter-Komponente erfordert die Installation der Anaconda-Komponente, wie im Beispiel für das gcloud-Befehlszeilentool unten gezeigt.

Informationen zu den Komponentenversionen, die im jeweiligen Dataproc-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.

gcloud-Befehl

Verwenden Sie zum Erstellen eines Dataproc-Clusters, der die Jupyter-Komponente enthält, den Befehl gcloud dataproc clusters create cluster-name mit dem Flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

REST API

Die Jupyter- und Anaconda-Komponenten können mithilfe der Dataproc API SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.

Console

  1. Aktivieren Sie die Komponente.
    • Öffnen Sie in der Cloud Console die Dataproc-Seite Cluster erstellen. Klicken Sie unten auf der Seite auf "Advanced options" (Erweiterte Optionen), um den Abschnitt "Optional components" (Optionale Komponenten) aufzurufen.

    • Klicken Sie auf "Select component" (Komponente auswählen), um den Auswahlbereich Optional components (Optionale Komponenten) aufzurufen. Wählen Sie "Anaconda", "Jupyter-Notebook" und ggf. andere optionale Komponenten aus, um sie im Cluster zu installieren.

  2. Aktivieren Sie das Component Gateway (erfordert die Image-Version 1.3.29 oder höher), um über die Google Cloud Platform Console den einfachen Zugriff auf das Jupyter-Notebook und andere Weboberflächen von Komponenten zu aktivieren (siehe Component Gateway-URLs ansehen und auf diese zugreifen).
    • Klicken Sie im Formular "Cluster erstellen" auf das Kästchen für "Component Gateway".

Jupyter-UI und JupyterLab-UI öffnen

Klicken Sie auf die Links zum Component Gateway in Cloud Console, um in Ihrem lokalen Browser das Jupyter-Notebook und die JupyterLab-UIs zu öffnen, die auf dem Masterknoten des Clusters ausgeführt werden.

GPUs an Master- und/oder Worker-Knoten anhängen

Wenn Sie ein Jupyter-Notebook verwenden, Sie können den Master- und Worker-Knoten Ihres Clusters GPUs hinzufügen, um Folgendes zu tun:

  1. Daten in Spark vorverarbeiten, dann einen DataFrame auf dem Master erfassen und TensorFlow ausführen
  2. Spark zur parallelen Orchestrierung von TensorFlow-Ausführungen verwenden
  3. Tensorflow-on-YARN ausführen
  4. In anderen ML-Szenarien verwenden, die GPUs verwenden