Jupyter-Notebook in einem Dataproc-Cluster installieren und ausführen

Lernziele

In dieser Anleitung erfahren Sie, wie Sie die Jupyter- und Anaconda-Komponenten von Dataproc in einem neuen Cluster installieren und dann von Ihrem lokalen Browser aus eine Verbindung zur UI von Jupyter-Notebook herstellen, die im Cluster mit dem Dataproc-Component Gateway ausgeführt wird.

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweis

Erstellen Sie ein Google Cloud Platform-Projekt und einen Cloud Storage-Bucket, falls noch nicht geschehen.

  1. Projekt einrichten

    1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
    2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

      Zur Projektauswahl

    3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

    4. Dataproc, Compute Engine, and Cloud Storage APIs aktivieren.

      Aktivieren Sie die APIs

    5. Installieren Sie die Google Cloud CLI.
    6. Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

      gcloud init
    7. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

      Zur Projektauswahl

    8. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

    9. Dataproc, Compute Engine, and Cloud Storage APIs aktivieren.

      Aktivieren Sie die APIs

    10. Installieren Sie die Google Cloud CLI.
    11. Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

      gcloud init

  2. Erstellen Sie ein Cloud Storage-Bucket in Ihrem Projekt zum Speichern aller Notebooks, die Sie in dieser Anleitung erstellen.

    1. Wechseln Sie in der Google Cloud Console zur Cloud Storage-Seite Buckets.

      Zur Seite „Buckets“

    2. Klicken Sie auf Bucket erstellen.
    3. Geben Sie auf der Seite Bucket erstellen die Bucket-Informationen ein. Klicken Sie auf Weiter, um mit dem nächsten Schritt fortzufahren.
      • Geben Sie unter Bucket benennen einen Namen ein, der den Anforderungen für Bucket-Namen entspricht.
      • Gehen Sie unter Speicherort für Daten auswählen folgendermaßen vor:
        • Wählen Sie eine Option für Standorttyp aus.
        • Wählen Sie eine Standort-Option aus.
      • Wählen Sie unter Standardspeicherklasse für Ihre Daten auswählen eine Speicherklasse aus.
      • Wählen Sie unter Zugriffssteuerung für Objekte auswählen eine Option für die Zugriffssteuerung aus.
      • Geben Sie für Erweiterte Einstellungen (optional) eine Verschlüsselungsmethode, eine Aufbewahrungsrichtlinie oder Bucket-Labels an.
    4. Klicken Sie auf Erstellen.
    5. Ihre Notebooks werden in Cloud Storage unter gs://bucket-name/notebooks/jupyter gespeichert.

Cluster erstellen und Jupyter-Komponente installieren

Cluster mit der installierten Jupyter-Komponente erstellen.

Jupyter-UI und JupyterLab-UI öffnen

Klicken Sie in der Google Cloud Console auf die Links für die Google Cloud Console-Komponente „Gateway“, um die Jupyter-Notebooks oder die JupyterLab-UIs, die auf Ihrem Masterknoten ausgeführt werden, zu öffnen.

Das Verzeichnis der obersten Ebene, das von Ihrer Jupyter-Instanz angezeigt wird, ist ein virtuelles Verzeichnis, mit dem Sie die Inhalte Ihres Cloud Storage-Buckets oder Ihres lokalen Dateisystems anzeigen können. Sie können entweder einen Speicherort auswählen, indem Sie auf den GCS-Link für Cloud Storage oder Lokales Laufwerk für das lokale Dateisystem des Masterknotens in Ihrem Cluster klicken.

  1. Klicken Sie auf den Link GCS. In der Web-UI von Jupyter Notebook werden die in Ihrem Cloud Storage-Bucket gespeicherten Notebooks angezeigt, einschließlich aller Notebooks, die Sie in dieser Anleitung erstellen.

Bereinigen

Nachdem Sie die Anleitung abgeschlossen haben, können Sie die erstellten Ressourcen bereinigen, damit sie keine Kontingente mehr nutzen und keine Gebühren mehr anfallen. In den folgenden Abschnitten erfahren Sie, wie Sie diese Ressourcen löschen oder deaktivieren.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten, wenn Sie das zum Ausführen der Anleitung erstellte Projekt löschen.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Cluster löschen

  • So löschen Sie Ihren Cluster:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Bucket löschen

  • So löschen Sie den Cloud Storage-Bucket, den Sie unter Hinweis, Schritt 2 erstellt haben, einschließlich der im Bucket gespeicherten Notebooks:
    gsutil -m rm -r gs://${BUCKET_NAME}
    

Weitere Informationen