Verwaltete Notebookinstanz in einem Dataproc-Cluster ausführen

Auf dieser Seite wird beschrieben, wie Sie die Notebookdatei einer verwalteten Notebookinstanz in einem Dataproc-Cluster ausführen.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. Notebooks and Dataproc APIs aktivieren.

    Aktivieren Sie die APIs

  5. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  6. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  7. Notebooks and Dataproc APIs aktivieren.

    Aktivieren Sie die APIs

  8. Falls noch nicht geschehen, erstellen Sie eine verwaltete Notebookinstanz.

Erforderliche Rollen

Bitten Sie Ihren Administrator, dem Dienstkonto die folgenden IAM-Rollen zu gewähren, damit das Dienstkonto die erforderlichen Berechtigungen zum Ausführen einer Notebook-Datei auf einem serverlosen Dataproc-Cluster hat:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Ausführen einer Notebook-Datei auf einem Dataproc-Cluster erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um eine Notebook-Datei auf einem Dataproc-Servercluster auszuführen:

  • dataproc.agents.create
  • dataproc.agents.delete
  • dataproc.agents.get
  • dataproc.agents.update
  • dataproc.tasks.lease
  • dataproc.tasks.listInvalidatedLeases
  • dataproc.tasks.reportStatus
  • dataproc.clusters.use

Ihr Administrator kann dem Dienstkonto möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Dataproc-Cluster erstellen

Zum Ausführen der Notebookdatei einer verwalteten Notebookinstanz in einem Dataproc-Cluster muss Ihr Cluster die folgenden Kriterien erfüllen:

  • Das Komponenten-Gateway des Clusters muss aktiviert sein.

  • Der Cluster muss die Jupyter-Komponente haben.

  • Der Cluster muss sich in derselben Region wie die verwaltete Notebookinstanz befinden.

Geben Sie zum Erstellen Ihres Dataproc-Clusters den folgenden Befehl entweder in Cloud Shell oder einer Umgebung ein, in der das Google Cloud CLI installiert ist.

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

Dabei gilt:

  • REGION: Google Cloud-Speicherort Ihrer verwalteten Notebook-Instanz.

  • CLUSTER_NAME: Name des neuen Clusters.

Nach einigen Minuten ist Ihr Dataproc-Cluster verfügbar. Dataproc-Cluster erstellen

JupyterLab öffnen

  1. Falls noch nicht geschehen, erstellen Sie eine verwaltete Notebookinstanz in derselben Region, in der sich auch Ihr Dataproc-Cluster befindet.

  2. Rufen Sie in der Google Cloud Console die Seite Verwaltete Notebooks auf.

    Zu "Verwaltete Notebooks"

  3. Klicken Sie neben dem Namen der verwalteten Notebookinstanz auf JupyterLab öffnen.

Notebookdatei in Ihrem Dataproc-Cluster ausführen

Sie können eine Notebookdatei in Ihrem Dataproc-Cluster über jede verwaltete Notebookinstanz im selben Projekt und in derselben Region ausführen.

Neue Notebookdatei ausführen

  1. Wählen Sie in der JupyterLab-Oberfläche Ihrer verwalteten Notebookinstanz Folgendes aus: Datei>Neu >Notebook.

  2. Die verfügbaren Kernel Ihres Dataproc-Clusters werden im Menü Kernel auswählen angezeigt. Wählen Sie den gewünschten Kernel aus und klicken Sie auf Auswählen.

    Ihre neue Notebookdatei wird geöffnet.

  3. Fügen Sie der neuen Notebookdatei Code hinzu und führen Sie den Code aus.

Informationen zum Ändern des Kernels, den Sie nach dem Erstellen Ihrer Notebookdatei verwenden möchten, finden Sie im folgenden Abschnitt.

Vorhandene Notebookdatei ausführen

  1. Klicken Sie in der JupyterLab-Oberfläche Ihrer verwalteten Notebook-Instanz auf die Schaltfläche  Dateibrowser, wechseln Sie zur Notebookdatei, die Sie ausführen möchten, und öffnen Sie sie.

  2. Klicken Sie zum Öffnen des Dialogfelds Kernel auswählen auf den Kernelnamen Ihrer Notebookdatei, z. B. Python (lokal).

  3. Wählen Sie einen Kernel-Namen aus, der Ihren Clusternamen am Ende enthält, um einen Kernel aus Ihrem Dataproc-Cluster auszuwählen. Ein PySpark-Kernel in einem Dataproc-Cluster mit dem Namen mycluster heißt beispielsweise PySpark on mycluster.

  4. Klicken Sie auf Auswählen, um das Dialogfeld zu schließen.

    Sie können den Code Ihrer Notebookdatei jetzt im Dataproc-Cluster ausführen.

Nächste Schritte