Jupyter-Notebook in einem Dataproc-Cluster installieren und ausführen

Hinweis

Erstellen Sie ein Google Cloud Platform-Projekt und einen Cloud Storage-Bucket, falls noch nicht geschehen.

Projekt einrichten

  1. Melden Sie sich bei Ihrem Google-Konto an.

    Wenn Sie noch kein Konto haben, melden Sie sich hier für ein neues Konto an.

  2. Wählen Sie in der Cloud Console auf der Seite für die Projektauswahl ein Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

  4. Dataproc and Compute Engine APIs aktivieren.

    Aktivieren Sie die APIs

  5. Installieren und initialisieren Sie das Cloud SDK.

Cloud Storage-Bucket im Projekt erstellen

  1. Wechseln Sie in der Cloud Console zum Cloud Storage-Browser.

    Zum Cloud Storage-Browser

  2. Klicken Sie auf Bucket erstellen.
  3. Geben Sie im Dialogfeld Bucket erstellen die folgenden Attribute an:
  4. Klicken Sie auf Erstellen.
  5. Ihre Notebooks werden in Cloud Storage unter gs://bucket-name/notebooks/jupyter gespeichert.

Cluster erstellen und Jupyter-Komponente installieren

gcloud-Befehl

  1. Führen Sie den folgenden Befehl gcloud beta dataproc clusters create lokal in einem Terminalfenster oder in Cloud Shell aus, um:

    1. Den Cluster zu erstellen und die Jupyter- und Anaconda-Komponenten auf dem Masterknoten des Clusters zu installieren
    2. Das Komponentengateway zu aktivieren

    Geben Sie im Befehl unten Ihre Werte für cluster-name, bucket-name und project-id ein. Geben Sie für bucket-nameden Namen des Buckets ein, den Sie unter Cloud Storage-Bucket im Projekt erstellen erstellt haben (geben Sie nur den Namen des Buckets an). Ihre Notebooks werden in Cloud Storage unter gs://bucket-name/notebooks/jupyter gespeichert.

    Linux/macOS

    gcloud beta dataproc clusters create cluster-name \
        --optional-components=ANACONDA,JUPYTER \
        --image-version=1.3 \
        --enable-component-gateway \
        --bucket=bucket-name \
        --region=region \
        --project=project-id
    

    Windows

    gcloud dataproc clusters create cluster-name ^
        --optional-components=ANACONDA,JUPYTER ^
        --image-version=1.3 ^
        --enable-component-gateway ^
        --bucket=bucket-name ^
        --region=region ^
        --project=project-id
    

Console

  1. Rufen Sie in der Cloud Console die Dataproc-Seite Dataproc-Cluster auf.
  2. Klicken Sie auf Cluster erstellen, um die Seite "Cluster erstellen" zu öffnen.
  3. Geben Sie den Namen Ihres Clusters in das Feld Name ein.
  4. Wählen Sie in den Drop-down-Menüs Region und Zone eine Region und eine Zone für den Cluster aus (siehe Verfügbare Regionen und Zonen). Sie können eine eigene Region angeben und "Keine Präferenz" auswählen, damit Dataproc eine Zone innerhalb der ausgewählten Region für Ihren Cluster auswählt. Weitere Informationen unter Automatische Zonenplatzierung in Dataproc. Sie können stattdessen eine global-Region auswählen. Dies ist ein spezieller Namespace mit mehreren Regionen, der Instanzen global in allen Compute Engine-Zonen bereitstellen kann. Wenn Sie eine globale Region auswählen, müssen Sie auch eine Zone auswählen.
  5. Klicken Sie auf das Komponentengateway-Kästchen.
  6. Maximieren Sie das Steuerfeld Erweiterte Optionen.

  7. Geben Sie im Feld Cloud Storage staging bucket den Namen des Buckets ein, den Sie unter Cloud Storage-Bucket im Projekt erstellen erstellt haben. Geben Sie nur den Namen des Buckets an. Ihre Notebooks werden in Cloud Storage unter gs://bucket-name/notebooks/jupyter gespeichert.
  8. Klicken Sie auf "Komponente auswählen", um den Auswahlbereich "Optionale Komponenten" aufzurufen.
  9. Wählen Sie die Komponenten "Anaconda" und "Jupyter Notebook" aus.
  10. Für die anderen Optionen können Sie die angegebenen Standardeinstellungen verwenden.

  11. Klicken Sie auf Create (Erstellen), um den Cluster zu erstellen und die Komponenten und das Komponentengateway auf dem Masterknoten des Clusters zu installieren.

Jupyter Notebook im lokalen Browser öffnen

  1. Wechseln Sie in der Google Cloud Console zum Dataproc-Formular Cluster und wählen Sie den entsprechenden Cluster aus, um das Formular Clusterdetails zu öffnen. Klicken Sie auf den Tab Weboberflächen, um eine Liste der Component Gateway-Links zu den Weboberflächen der im Cluster installierten Standardkomponenten und optionalen Komponenten zu öffnen.

  2. Klicken Sie auf den Link Jupyter. Die Web-UI von Jupyter Notebook wird in Ihrem lokalen Browser geöffnet.