Dataproc Serverless Spark mit verwalteten Notebooks verwenden

Auf dieser Seite wird erläutert, wie Sie mithilfe von Dataproc Serverless eine Notebook-Datei auf serverlosem Spark in einer von Vertex AI Workbench verwalteten Notebook-Instanz ausführen.

Die Instanz Ihrer verwalteten Notebooks kann den Code einer Notebookdatei senden, um sie auf dem serverlosen Dataproc-Dienst auszuführen. Der Dienst führt den Code auf einer verwalteten Computing-Infrastruktur aus, die Ressourcen automatisch nach Bedarf skaliert. Daher müssen Sie keinen eigenen Cluster bereitstellen und verwalten.

Serverlose Dataproc-Gebühren gelten nur für den Zeitpunkt, an dem die Arbeitslast ausgeführt wird.

Voraussetzungen

Informationen zum Ausführen einer Notebook-Datei auf Dataproc Serverless Spark finden Sie in den folgenden Anforderungen.

  • Ihre Dataproc Serverless-Sitzung muss in derselben Region wie Ihre verwaltete Notebook-Instanz ausgeführt werden.

  • Die Einschränkung „OS-Login erforderlich“ (constraints/compute.requireOsLogin) darf für Ihr Projekt nicht aktiviert sein. Siehe OS Login in einer Organisation verwalten.

  • Zum Ausführen einer Notebook-Datei in Dataproc Serverless müssen Sie ein Dienstkonto mit bestimmten Berechtigungen bereitstellen. Sie können diese Berechtigungen dem Standarddienstkonto erteilen oder ein benutzerdefiniertes Dienstkonto bereitstellen. Informationen dazu finden Sie im Abschnitt „Berechtigungen“ auf dieser Seite.

  • Die Dataproc Serverless Spark-Sitzung verwendet ein VPC-Netzwerk (Virtual Private Cloud), um Arbeitslasten auszuführen. Das VPC-Subnetzwerk muss bestimmte Anforderungen erfüllen. Lesen Sie die Anforderungen unter Dataproc Serverless for Spark-Netzwerkkonfiguration.

Berechtigungen

Damit das Dienstkonto die erforderlichen Berechtigungen zum Ausführen einer Notebookdatei auf Dataproc Serverless hat, bitten Sie Ihren Administrator, dem Dienstkonto die IAM-Rolle Dataproc-Editor (roles/dataproc.editor) für Ihr Projekt zuzuweisen. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Diese vordefinierte Rolle enthält die Berechtigungen, die zum Ausführen einer Notebook-Datei auf Dataproc Serverless erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um eine Notebook-Datei auf Dataproc Serverless auszuführen:

  • dataproc.agents.create
  • dataproc.agents.delete
  • dataproc.agents.get
  • dataproc.agents.update
  • dataproc.session.create
  • dataproc.sessions.get
  • dataproc.sessions.list
  • dataproc.sessions.terminate
  • dataproc.sessions.delete
  • dataproc.tasks.lease
  • dataproc.tasks.listInvalidatedLeases
  • dataproc.tasks.reportStatus

Ihr Administrator kann dem Dienstkonto möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Hinweise

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. Notebooks, Vertex AI, and Dataproc APIs aktivieren.

    Aktivieren Sie die APIs

  5. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  6. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  7. Notebooks, Vertex AI, and Dataproc APIs aktivieren.

    Aktivieren Sie die APIs

  8. Falls noch nicht geschehen, erstellen Sie eine verwaltete Notebookinstanz.
  9. Falls noch nicht geschehen, konfigurieren Sie ein VPC-Netzwerk, das die unter Dataproc Serverless for Spark-Netzwerkkonfiguration aufgeführten Anforderungen erfüllt.

JupyterLab öffnen

  1. Rufen Sie in der Google Cloud Console die Seite Verwaltete Notebooks auf.

    Zu "Verwaltete Notebooks"

  2. Klicken Sie neben dem Namen der verwalteten Notebook-Instanz auf JupyterLab öffnen.

Dataproc Serverless Spark-Sitzung starten

Gehen Sie folgendermaßen vor, um eine Dataproc Serverless Spark-Sitzung zu starten.

  1. Wählen Sie auf der JupyterLab-Oberfläche Ihrer verwalteten Notebook-Instanz den Tab Launcher und dann Serverless Spark aus. Wenn der Tab Launcher nicht geöffnet ist, wählen Sie Datei > Neuer Launcher aus, um ihn zu öffnen.

    Das Dialogfeld Serverless Spark-Sitzung erstellen wird angezeigt.

  2. Geben Sie im Feld Sitzungsname einen Namen für die Sitzung ein.

  3. Geben Sie unter Ausführungskonfiguration das Dienstkonto ein, das Sie verwenden möchten. Wenn Sie kein Dienstkonto eingeben, verwendet Ihre Sitzung das Compute Engine-Standarddienstkonto.

  4. Wählen Sie unter Netzwerkkonfiguration das Netzwerk und das Subnetzwerk eines Netzwerks aus, das die unter Dataproc Serverless for Spark-Netzwerkkonfiguration aufgeführten Anforderungen erfüllt.

  5. Klicken Sie auf Erstellen.

    Eine neue Notebook-Datei wird geöffnet. Die von Ihnen erstellte Dataproc Serverless Spark-Sitzung ist der Kernel, der den Code Ihrer Notebook-Datei ausführt.

Code auf Dataproc Serverless Spark und anderen Kerneln ausführen

  1. Fügen Sie der neuen Notebookdatei Code hinzu und führen Sie den Code aus.

  2. Wenn Sie Code auf einem anderen Kernel ausführen möchten, ändern Sie den Kernel.

  3. Wenn Sie den Code für Ihre Dataproc Serverless Spark-Sitzung noch einmal ausführen möchten, ändern Sie den Kernel wieder in den Dataproc Serverless Spark-Kernel.

Serverlose Dataproc-Spark-Sitzung beenden

Sie können eine Dataproc Serverless Spark-Sitzung auf der JupyterLab-Oberfläche oder in der Google Cloud Console beenden. Der Code in Ihrer Notebookdatei wird beibehalten.

JupyterLab

  1. Schließen Sie in JupyterLab die Notebookdatei, die beim Erstellen der Dataproc Serverless Spark-Sitzung erstellt wurde.

  2. Klicken Sie im angezeigten Dialogfeld auf Sitzung beenden.

Google Cloud Console

  1. Rufen Sie in der Google Cloud Console die Dataproc-Seite Sitzungen auf.

    Zu Dataproc-Sitzungen

  2. Wählen Sie die Sitzung aus, die Sie beenden möchten, und klicken Sie dann auf Beenden.

Dataproc Serverless Spark-Sitzung löschen

Sie können eine Dataproc Serverless Spark-Sitzung mithilfe der Google Cloud Console löschen. Der Code in Ihrer Notebookdatei wird beibehalten.

  1. Rufen Sie in der Google Cloud Console die Dataproc-Seite Sitzungen auf.

    Zu Dataproc-Sitzungen

  2. Wählen Sie die Sitzungen aus, die Sie löschen möchten, und klicken Sie dann auf Löschen.

Nächste Schritte