Was ist Dataproc Serverless?

Mit Dataproc Serverless können Sie Spark-Arbeitslasten ausführen, ohne einen eigenen Dataproc-Cluster bereitstellen und verwalten zu müssen. Es gibt zwei Möglichkeiten, serverlose Dataproc-Arbeitslasten auszuführen:

Dataproc Serverless für Spark Batch

Verwenden Sie die Google Cloud Console, die Google Cloud CLI oder die Dataproc API, um eine Batcharbeitslast an den serverlosen Dataproc-Dienst zu senden. Der Dienst führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen nach Bedarf automatisch. Dataproc Serverless-Gebühren gelten nur für die Zeit, in der die Arbeitslast ausgeführt wird.

Eine Einführung finden Sie unter Apache Spark-Batcharbeitslast ausführen.

Dataproc Serverless für Spark Interactive

Code in Jupyter-Notebooks während einer Dataproc Serverless for Spark Interactive-Sitzung schreiben und ausführen Sie können eine Notebook-Sitzung auf folgende Arten erstellen:

  • Mit dem Dataproc JupyterLab-Plug-in können Sie mehrere Notebook-Sitzungen aus Vorlagen erstellen, die Sie erstellen und verwalten. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Launcher-Seite verschiedene Karten angezeigt, die den verschiedenen Spark-Kernel-Konfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Dataproc Serverless Notebook-Sitzung zu erstellen, und beginnen Sie dann mit dem Schreiben und Testen Ihres Codes in dem Notebook.

    Mit dem Dataproc JupyterLab-Plug-in können Sie auf der JupyterLab-Launcher-Seite auch die folgenden Aktionen ausführen:

    • Dataproc in Compute Engine-Clustern erstellen
    • Senden Sie Jobs an Dataproc in Compute Engine-Clustern.
    • Google Cloud- und Spark-Logs ansehen.

Informationen zum Einstieg finden Sie unter JupyterLab für serverlose Batch- und interaktive Notebook-Sitzungen verwenden.

Dataproc Serverless für Spark im Vergleich zu Dataproc in Compute Engine

Dataproc in Compute Engine ist ideal, wenn Sie Infrastruktur bereitstellen und verwalten und dann Arbeitslasten in Spark und anderen Open-Source-Verarbeitungs-Frameworks ausführen möchten. In der folgenden Tabelle sind die wichtigsten Unterschiede zwischen Dataproc in Compute Engine und Dataproc Serverless for Spark aufgeführt.

Voraussetzung Serverloses Dataproc für Spark Dataproc in Compute Engine
Frameworks verarbeiten Batch: Spark 3.4 und frühere Versionen
Interaktiv: PySpark-Kernel für Spark 3.4 und frühere Versionen
Spark 3.3 und frühere Versionen. Andere Open-Source-Frameworks wie Hive, Flink, Trino und Kafka
Serverlos Yes Nein
Startzeit 60 Sekunden 90er
Infrastrukturkontrolle Nein Yes
Ressourcenverwaltung Spark-basiert YARN-basiert
GPU-Unterstützung Yes Yes
Interaktive Sitzungen Yes Nein
Benutzerdefinierte Container Yes Nein
VM-Zugriff (z. B. SSH) Nein Yes
Java-Versionen Java 17, 11 Vorherige Versionen werden unterstützt
OS Login-Support * Nein Yes

Hinweise:

  • Eine OS Login-Richtlinie ist auf Dataproc Serverless nicht anwendbar und wird von diesem nicht unterstützt. Wenn Ihre Organisation eine OS Login-Richtlinie erzwingt, schlagen ihre serverlosen Dataproc-Arbeitslasten fehl.

Sicherheitscompliance von Dataproc Serverless

Dataproc Serverless erfüllt alle Datenstandort-, CMEK-, VPC-SC- und anderen Sicherheitsanforderungen, die Dataproc erfüllt.

Dataproc Serverless für Spark-Batcharbeitslastfunktionen

Sie können die folgenden Dataproc Serverless für Spark-Batch-Arbeitslasttypen ausführen:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java oder Scala)

Sie können Spark-Attribute angeben, wenn Sie eine Dataproc Serverless for Spark-Batcharbeitslast senden.