Jupyter-Notebook in einem Dataproc-Cluster installieren und ausführen

Ziele

In dieser Anleitung erfahren Sie, wie Sie die Jupyter- und Anaconda-Komponenten von Dataproc in einem neuen Cluster installieren und dann von Ihrem lokalen Browser aus eine Verbindung zur UI von Jupyter-Notebook herstellen, die im Cluster mit dem Dataproc-Component Gateway ausgeführt wird.

Kosten

In dieser Anleitung werden die folgenden kostenpflichtigen Komponenten von Google Cloud verwendet:

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweis

Erstellen Sie ein Google Cloud Platform-Projekt und einen Cloud Storage-Bucket, falls noch nicht geschehen.

  1. Projekt einrichten

    1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
    2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

      Zur Projektauswahl

    3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

    4. Dataproc, Compute Engine, and Cloud Storage APIs aktivieren.

      Aktivieren Sie die APIs

    5. Installieren und initialisieren Sie das Cloud SDK.
    6. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

      Zur Projektauswahl

    7. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

    8. Dataproc, Compute Engine, and Cloud Storage APIs aktivieren.

      Aktivieren Sie die APIs

    9. Installieren und initialisieren Sie das Cloud SDK.

  2. Erstellen Sie einen Cloud Storage-Bucket in Ihrem Projekt, um alle in dieser Anleitung erstellten Notebooks zu speichern.

    1. Wechseln Sie in der Cloud Console zum Cloud Storage-Browser.

      Browser aufrufen

    2. Klicken Sie auf Bucket erstellen.
    3. Geben Sie auf der Seite Bucket erstellen die Bucket-Informationen ein. Klicken Sie auf Weiter, um mit dem nächsten Schritt fortzufahren.
      • Geben Sie unter Bucket benennen einen Namen ein, der den Anforderungen für Bucket-Namen entspricht.
      • Gehen Sie unter Speicherort für Daten auswählen folgendermaßen vor:
        • Wählen Sie eine Option für Standorttyp aus.
        • Wählen Sie eine Standort-Option aus.
      • Wählen Sie unter Standardspeicherklasse für Ihre Daten auswählen eine Speicherklasse aus.
      • Wählen Sie unter Zugriffssteuerung für Objekte auswählen eine Option für die Zugriffssteuerung aus.
      • Geben Sie für Erweiterte Einstellungen (optional) eine Verschlüsselungsmethode, eine Aufbewahrungsrichtlinie oder Bucket-Labels an.
    4. Klicken Sie auf Erstellen.
    5. Ihre Notebooks werden in Cloud Storage unter gs://bucket-name/notebooks/jupyter gespeichert.

Cluster erstellen und Jupyter-Komponente installieren

Cluster mit der installierten Jupyter-Komponente erstellen

Jupyter-UI und JupyterLab-UI öffnen

Klicken Sie in der Cloud Console auf Links zum Component Gateway der Cloud Console, um die Jupyter-Notebook- oder JupyterLab-UIs zu öffnen, die auf dem Masterknoten des Clusters ausgeführt werden.

Das von der Jupyter-Instanz angezeigte oberste Verzeichnis ist ein virtuelles Verzeichnis, mit dem Sie den Inhalt Ihres Cloud Storage-Buckets oder Ihres lokalen Dateisystems anzeigen können. Sie können einen Speicherort auswählen, indem Sie auf den Link GCS für Cloud Storage oder Local Disk für das lokale Dateisystem des Masterknotens in Ihrem Cluster klicken.

  1. Klicken Sie auf den Link GCS. Die Jupyter-Notebook-Web-UI zeigt die in Ihrem Cloud Storage-Bucket gespeicherten Notebooks an, einschließlich aller Notebooks, die Sie in dieser Anleitung erstellen.

Bereinigen

Nachdem Sie die Anleitung abgeschlossen haben, können Sie die erstellten Ressourcen bereinigen, damit sie keine Kontingente mehr nutzen und keine Gebühren mehr anfallen. In den folgenden Abschnitten erfahren Sie, wie Sie diese Ressourcen löschen oder deaktivieren.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten, wenn Sie das zum Ausführen der Anleitung erstellte Projekt löschen.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Cluster löschen

  • So löschen Sie den Cluster:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Bucket löschen

  • So löschen Sie den Cloud Storage-Bucket, den Sie unter Hinweis, Schritt 2 erstellt haben, einschließlich der im Bucket gespeicherten Notebooks:
    gsutil -m rm -r gs://${BUCKET_NAME}
    

Nächste Schritte