Jupyter-Notebook in einem Dataproc-Cluster installieren und ausführen

Lernziele

In dieser Anleitung erfahren Sie, wie Sie die Jupyter- und Anaconda-Komponenten von Dataproc in einem neuen Cluster installieren und dann von Ihrem lokalen Browser aus eine Verbindung zur UI von Jupyter-Notebook herstellen, die im Cluster mit dem Dataproc-Component Gateway ausgeführt wird.

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweis

Erstellen Sie ein Google Cloud Platform-Projekt und einen Cloud Storage-Bucket, falls noch nicht geschehen.

  1. Projekt einrichten

    1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
    2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    3. Make sure that billing is enabled for your Google Cloud project.

    4. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    5. Install the Google Cloud CLI.
    6. To initialize the gcloud CLI, run the following command:

      gcloud init
    7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    8. Make sure that billing is enabled for your Google Cloud project.

    9. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    10. Install the Google Cloud CLI.
    11. To initialize the gcloud CLI, run the following command:

      gcloud init

  2. Erstellen Sie ein Cloud Storage-Bucket in Ihrem Projekt zum Speichern aller Notebooks, die Sie in dieser Anleitung erstellen.

    1. In the Google Cloud console, go to the Cloud Storage Buckets page.

      Go to Buckets page

    2. Click Create bucket.
    3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
      • For Name your bucket, enter a name that meets the bucket naming requirements.
      • For Choose where to store your data, do the following:
        • Select a Location type option.
        • Select a Location option.
      • For Choose a default storage class for your data, select a storage class.
      • For Choose how to control access to objects, select an Access control option.
      • For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
    4. Click Create.
    5. Ihre Notebooks werden in Cloud Storage unter gs://bucket-name/notebooks/jupyter gespeichert.

Cluster erstellen und Jupyter-Komponente installieren

Cluster mit der installierten Jupyter-Komponente erstellen.

Jupyter-UI und JupyterLab-UI öffnen

Klicken Sie in der Google Cloud Console auf die Links für die Google Cloud Console-Komponente „Gateway“, um die Jupyter-Notebooks oder die JupyterLab-UIs, die auf Ihrem Masterknoten ausgeführt werden, zu öffnen.

Das Verzeichnis der obersten Ebene, das von Ihrer Jupyter-Instanz angezeigt wird, ist ein virtuelles Verzeichnis, mit dem Sie die Inhalte Ihres Cloud Storage-Buckets oder Ihres lokalen Dateisystems anzeigen können. Sie können entweder einen Speicherort auswählen, indem Sie auf den GCS-Link für Cloud Storage oder Lokales Laufwerk für das lokale Dateisystem des Masterknotens in Ihrem Cluster klicken.

  1. Klicken Sie auf den Link GCS. In der Web-UI von Jupyter Notebook werden die in Ihrem Cloud Storage-Bucket gespeicherten Notebooks angezeigt, einschließlich aller Notebooks, die Sie in dieser Anleitung erstellen.

Bereinigen

Nachdem Sie die Anleitung abgeschlossen haben, können Sie die erstellten Ressourcen bereinigen, damit sie keine Kontingente mehr nutzen und keine Gebühren mehr anfallen. In den folgenden Abschnitten erfahren Sie, wie Sie diese Ressourcen löschen oder deaktivieren.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten, wenn Sie das zum Ausführen der Anleitung erstellte Projekt löschen.

So löschen Sie das Projekt:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Cluster löschen

  • So löschen Sie Ihren Cluster:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Bucket löschen

  • So löschen Sie den Cloud Storage-Bucket, den Sie unter Hinweis, Schritt 2 erstellt haben, einschließlich der im Bucket gespeicherten Notebooks:
    gsutil -m rm -r gs://${BUCKET_NAME}
    

Weitere Informationen