Verwaltete Notebookinstanz in einem Dataproc-Cluster ausführen
Auf dieser Seite wird beschrieben, wie Sie die Notebookdatei einer verwalteten Notebookinstanz in einem Dataproc-Cluster ausführen.
Hinweis
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Enable the Notebooks and Dataproc APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Enable the Notebooks and Dataproc APIs.
- Falls noch nicht geschehen, erstellen Sie eine verwaltete Notebookinstanz.
Erforderliche Rollen
Bitten Sie Ihren Administrator, dem Dienstkonto die folgenden IAM-Rollen zu gewähren, damit das Dienstkonto die erforderlichen Berechtigungen zum Ausführen einer Notebook-Datei auf einem serverlosen Dataproc-Cluster hat:
-
Dataproc-Worker (
roles/dataproc.worker
) für Ihr Projekt -
Dataproc-Bearbeiter (
roles/dataproc.editor
) im Cluster für die Berechtigungdataproc.clusters.use
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Ausführen einer Notebook-Datei auf einem Dataproc-Cluster erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um eine Notebook-Datei auf einem Dataproc-Servercluster auszuführen:
-
dataproc.agents.create
-
dataproc.agents.delete
-
dataproc.agents.get
-
dataproc.agents.update
-
dataproc.tasks.lease
-
dataproc.tasks.listInvalidatedLeases
-
dataproc.tasks.reportStatus
-
dataproc.clusters.use
Ihr Administrator kann dem Dienstkonto möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.
Dataproc-Cluster erstellen
Zum Ausführen der Notebookdatei einer verwalteten Notebookinstanz in einem Dataproc-Cluster muss Ihr Cluster die folgenden Kriterien erfüllen:
Das Komponenten-Gateway des Clusters muss aktiviert sein.
Der Cluster muss die Jupyter-Komponente haben.
Der Cluster muss sich in derselben Region wie die verwaltete Notebookinstanz befinden.
Geben Sie zum Erstellen Ihres Dataproc-Clusters den folgenden Befehl entweder in Cloud Shell oder einer Umgebung ein, in der das Google Cloud CLI installiert ist.
gcloud dataproc clusters create CLUSTER_NAME\ --region=REGION \ --enable-component-gateway \ --optional-components=JUPYTER
Dabei gilt:
REGION
: Google Cloud-Speicherort Ihrer verwalteten Notebook-Instanz.CLUSTER_NAME
: Name des neuen Clusters.
Nach einigen Minuten ist Ihr Dataproc-Cluster verfügbar. Dataproc-Cluster erstellen
JupyterLab öffnen
Falls noch nicht geschehen, erstellen Sie eine verwaltete Notebookinstanz in derselben Region, in der sich auch Ihr Dataproc-Cluster befindet.
Rufen Sie in der Google Cloud Console die Seite Verwaltete Notebooks auf.
Klicken Sie neben dem Namen der verwalteten Notebookinstanz auf JupyterLab öffnen.
Notebookdatei in Ihrem Dataproc-Cluster ausführen
Sie können eine Notebookdatei in Ihrem Dataproc-Cluster über jede verwaltete Notebookinstanz im selben Projekt und in derselben Region ausführen.
Neue Notebookdatei ausführen
Wählen Sie in der JupyterLab-Oberfläche Ihrer verwalteten Notebookinstanz Folgendes aus: Datei>Neu >Notebook.
Die verfügbaren Kernel Ihres Dataproc-Clusters werden im Menü Kernel auswählen angezeigt. Wählen Sie den gewünschten Kernel aus und klicken Sie auf Auswählen.
Ihre neue Notebookdatei wird geöffnet.
Fügen Sie der neuen Notebookdatei Code hinzu und führen Sie den Code aus.
Informationen zum Ändern des Kernels, den Sie nach dem Erstellen Ihrer Notebookdatei verwenden möchten, finden Sie im folgenden Abschnitt.
Vorhandene Notebookdatei ausführen
Klicken Sie in der JupyterLab-Oberfläche Ihrer verwalteten Notebook-Instanz auf die Schaltfläche
Dateibrowser, wechseln Sie zur Notebookdatei, die Sie ausführen möchten, und öffnen Sie sie.Klicken Sie zum Öffnen des Dialogfelds Kernel auswählen auf den Kernelnamen Ihrer Notebookdatei, z. B. Python (lokal).
Wählen Sie einen Kernel-Namen aus, der Ihren Clusternamen am Ende enthält, um einen Kernel aus Ihrem Dataproc-Cluster auszuwählen. Ein PySpark-Kernel in einem Dataproc-Cluster mit dem Namen
mycluster
heißt beispielsweise PySpark on mycluster.Klicken Sie auf Auswählen, um das Dialogfeld zu schließen.
Sie können den Code Ihrer Notebookdatei jetzt im Dataproc-Cluster ausführen.
Nächste Schritte
- Weitere Informationen zu Dataproc