Dataproc Jupyter Komponente

Sie können zusätzliche Komponenten installieren, wenn Sie einen Dataproc-Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird die Jupyter-Komponente erläutert.

Die Jupyter-Komponente ist ein webbasiertes Notebook für interaktive Datenanalysen und unterstützt die JupyterLab-Webbenutzeroberfläche. Die Jupyter-Webbenutzeroberfläche ist über Port 8123 auf dem ersten Masterknoten des Clusters verfügbar.

Das Jupyter Notebook verwendet einen Python-Kernel zur Ausführung von Spark-Code und einen PySpark-Kernel. Notebooks werden standardmäßig im Dataproc-Staging-Bucket in Cloud Storage gespeichert. Dieser Bucket wird vom Nutzer festgelegt oder bei der Clustererstellung automatisch generiert. Der Standort kann zum Zeitpunkt der Clustererstellung über das dataproc:jupyter.notebook.gcs.dir-Attribut geändert werden.

Jupyter installieren

Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen. Sie können Komponenten in Cluster einfügen, die mit Dataproc Version 1.3 oder höher erstellt wurden. Bei anderen Dataproc-Image-Versionen außer dem 2.0-Image erfordert die Jupyter-Komponente die Installation der Anaconda-Komponente. Die Installation der Anaconda-Komponente ist nicht erforderlich oder verfügbar, wenn das 2.0-Image verwendet wird.

Informationen zu den Komponentenversionen, die im jeweiligen Dataproc-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.

gcloud-Befehl

Verwenden Sie zum Erstellen eines Dataproc-Clusters, der die Jupyter-Komponente enthält, den Befehl gcloud dataproc clusters create cluster-name mit dem Flag --optional-components. Im folgenden Beispiel werden sowohl die Jupyter- als auch die Anaconda-Komponente installiert. Die Installation der Anaconda-Komponente ist nicht erforderlich oder verfügbar, wenn das 2.0-Image verwendet wird.

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

REST API

Die Jupyter- und Anaconda-Komponenten können mithilfe der Dataproc API mit SoftwareConfig.Component als Teil von clusters.create angegeben werden. Die Installation der Anaconda-Komponente ist nicht erforderlich oder verfügbar, wenn das 2.0-Image verwendet wird.

Console

  1. Aktivieren Sie das Komponenten- und Komponentengateway.
    • Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt.
    • Im Abschnitt „Komponenten“:
      • Wählen Sie unter „Optionale Komponenten“ „Anaconda“, „Jupyter“ und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen. HINWEIS: Wenn Sie das Image 2.0 verwenden, ist die Anaconda-Komponente nicht installiert bzw. nicht verfügbar.
      • Wählen Sie unter Component Gateway „Component Gateway aktivieren“ aus (siehe Component Gateway-URLs ansehen und aufrufen).

Jupyter-UI und JupyterLab-UI öffnen

Klicken Sie auf die Links Google Cloud Console-Komponentengateway, die in Ihrem lokalen Browser das Jupyter-Notebook oder die JupyterLab-UIs öffnet, die auf Ihrem Masterknoten ausgeführt werden.

Wählen Sie „GCS“ oder „Lokales Laufwerk“ aus, um an beiden Orten ein neues Jupyter-Notebook zu erstellen.

GPUs an Master- und/oder Worker-Knoten anhängen

Sie können den Master- und Worker-Knoten Ihres Clusters GPUs hinzufügen, wenn Sie ein Jupyter-Notebook für folgende Aufgaben verwenden:

  1. Verarbeiten Sie Daten in Spark vor, erfassen Sie dann einen DataFrame auf dem Master und führen Sie TensorFlow aus.
  2. Spark zur parallelen Orchestrierung von TensorFlow-Ausführungen verwenden
  3. Tensorflow-YYN ausführen
  4. In anderen ML-Szenarien verwenden, die GPUs verwenden