Mit Dataproc Serverless können Sie Spark-Arbeitslasten ausführen, ohne Ihren eigenen Dataproc-Cluster bereitstellen und verwalten zu müssen. Es gibt zwei Möglichkeiten, serverlose Dataproc-Arbeitslasten auszuführen:
Dataproc Serverless für Spark-Batch
Reichen Sie eine Batch-Arbeitslast über die Google Cloud Console, die Google Cloud CLI oder die Dataproc API an den Dataproc Serverless-Dienst ein. Der Dienst führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Serverlose Dataproc-Gebühren gelten nur für den Zeitpunkt, an dem die Arbeitslast ausgeführt wird.
Informationen zum Einstieg finden Sie unter Apache Spark-Batcharbeitslast ausführen.
Dataproc Serverless für Spark Interactive
Sie können während einer interaktiven Dataproc Serverless for Spark-Sitzung Code in Jupyter-Notebooks schreiben und ausführen. So können Sie eine Notebooksitzung erstellen:
Mit dem Dataproc JupyterLab-Plug-in können Sie mehrere Notebooksitzungen aus Vorlagen erstellen und verwalten, die Sie selbst erstellen. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Launcher-Seite verschiedene Karten angezeigt, die verschiedenen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Dataproc Serverless-Notebooksitzung zu erstellen, und beginnen Sie dann, Ihren Code im Notebook zu schreiben und zu testen.
Mit dem Dataproc JupyterLab-Plug-in können Sie über die JupyterLab-Launcher-Seite auch die folgenden Aktionen ausführen:
- Dataproc in Compute Engine-Clustern erstellen
- Jobs an Dataproc in Compute Engine-Clustern senden
- Google Cloud- und Spark-Logs ansehen
Eine Einführung finden Sie unter JupyterLab für serverlose Batch- und interaktive Notebook-Sitzungen verwenden.
Dataproc Serverless für Spark im Vergleich zu Dataproc in der Compute Engine
Wenn Sie die Infrastruktur bereitstellen und verwalten und dann Arbeitslasten in Spark und anderen Open-Source-Verarbeitungs-Frameworks ausführen möchten, verwenden Sie Dataproc in der Compute Engine. In der folgenden Tabelle sind die wichtigsten Unterschiede zwischen Dataproc in der Compute Engine und Dataproc Serverless für Spark aufgeführt.
Leistungsvermögen | Serverloses Dataproc für Spark | Dataproc in Compute Engine |
---|---|---|
Verarbeitungsframeworks | Batch: Spark 3.4 und frühere Versionen Interaktiv: PySpark-Kernel für Spark 3.4 und frühere Versionen |
Spark 3.3 und älter Andere Open-Source-Frameworks wie Hive, Flink, Trino und Kafka |
Serverlos | Ja | Nein |
Startzeit | 60 Sekunden | 90er |
Infrastruktursteuerung | Nein | Ja |
Ressourcenverwaltung | Spark-basiert | YARN-basiert |
GPU-Unterstützung | Ja | Ja |
Interaktive Sitzungen | Ja | Nein |
Benutzerdefinierte Container | Ja | Nein |
VM-Zugriff (z. B. SSH) | Nein | Ja |
Java-Versionen | Java 17, 11 | Unterstützte vorherige Versionen |
OS Login
support * |
Nein | Ja |
Hinweise:
- Eine Richtlinie für das Betriebssystem-Anmelden gilt nicht für Dataproc Serverless und wird von diesem nicht unterstützt.
Wenn Ihre Organisation eine
OS Login
-Richtlinie erzwingt, schlagen die serverlosen Dataproc-Nutzlasten fehl.
Compliance bei der Sicherheit von Dataproc Serverless
Dataproc Serverless erfüllt alle Anforderungen an den Speicherort von Daten, CMEK, VPC-SC und andere Sicherheitsanforderungen, die auch für Dataproc gelten.
Funktionen für serverlose Dataproc-Batcharbeitslasten für Spark
Sie können die folgenden Dataproc Serverless-Typen für Spark-Batcharbeitslasten ausführen:
- PySpark
- Spark SQL
- Spark R
- Spark (Java oder Scala)
Sie können Spark-Eigenschaften angeben, wenn Sie eine serverlose Dataproc-Batcharbeitslast für Spark einreichen.