Mit Dataproc Serverless können Sie Spark-Arbeitslasten ohne Ihren Aufwand ausführen. um Ihren eigenen Dataproc-Cluster bereitzustellen und zu verwalten. Es gibt zwei Möglichkeiten, serverlose Dataproc-Arbeitslasten auszuführen:
Dataproc Serverless für Spark Batch
Google Cloud Console, Google Cloud CLI oder Dataproc API verwenden um eine Batcharbeitslast an den serverlosen Dataproc-Dienst zu senden. Der Dienst wird ausgeführt die Arbeitslast in einer verwalteten Computing-Infrastruktur und Autoscaling skaliert die Ressourcen nach Bedarf. Gebühren für Dataproc Serverless gelten nur für die Ausführungszeit der Arbeitslast.
Erste Schritte finden Sie unter Apache Spark-Batcharbeitslast ausführen
Dataproc Serverless für Spark Interactive
Code in Jupyter-Notebooks in einem serverlosen Dataproc-System schreiben und ausführen Interaktive Sitzung in Spark. Sie können eine Notebook-Sitzung wie folgt erstellen: Möglichkeiten:
Mit dem Dataproc JupyterLab-Plug-in mehrere Notebooks erstellen Sitzungen aus Vorlagen, die Sie erstellen und verwalten. Wenn Sie die auf einem lokalen Computer oder einer Compute Engine-VM, die verschiedenen Spark-Kernel-Konfigurationen entsprechen, JupyterLab-Launcher-Seite. Klicken Sie auf eine Karte, um ein serverloses Dataproc zu erstellen Notebook-Sitzung und beginnen Sie dann mit dem Schreiben und Testen Ihres Codes im Notebook.
Mit dem Dataproc JupyterLab-Plug-in Auf der JupyterLab-Launcher-Seite können Sie die folgenden Aktionen ausführen:
- Dataproc in Compute Engine-Clustern erstellen
- Senden Sie Jobs an Dataproc in Compute Engine-Clustern.
- Google Cloud- und Spark-Logs ansehen.
Erste Schritte finden Sie unter JupyterLab für serverlose Batch- und interaktive Notebook-Sitzungen verwenden
Dataproc Serverless für Spark im Vergleich zu Dataproc in Compute Engine
Dataproc in Compute Engine ist ideal, wenn Sie Infrastruktur bereitstellen und verwalten möchten, Arbeitslasten auf Spark und anderen Open-Source-Verarbeitungs-Frameworks. In der folgenden Tabelle sind die wichtigsten Unterschiede zwischen Dataproc auf Compute Engine und Dataproc Serverless für Spark.
Leistungsvermögen | Serverloses Dataproc für Spark | Dataproc in Compute Engine |
---|---|---|
Frameworks verarbeiten | Batch: Spark 3.4 und frühere Versionen Interaktiv: PySpark-Kernel für Spark 3.4 und frühere Versionen |
Spark 3.3 und frühere Versionen. Andere Open-Source-Frameworks, wie Hive, Flink, Trino und Kafka |
Serverlos | Ja | Nein |
Startzeit | 60 Sekunden | 90er |
Infrastrukturkontrolle | Nein | Ja |
Ressourcenverwaltung | Spark-basiert | YARN-basiert |
GPU-Unterstützung | Ja | Ja |
Interaktive Sitzungen | Ja | Nein |
Benutzerdefinierte Container | Ja | Nein |
VM-Zugriff (z. B. SSH) | Nein | Ja |
Java-Versionen | Java 17, 11 | Vorherige Versionen werden unterstützt |
OS Login
Support * |
Nein | Ja |
Hinweise:
- Eine OS Login-Richtlinie ist auf Dataproc Serverless nicht anwendbar und wird von diesem nicht unterstützt.
Wenn Ihre Organisation eine
OS Login
-Richtlinie erzwingt, werden die zugehörigen serverlosen Dataproc-Arbeitslasten schlägt fehl.
Sicherheitscompliance von Dataproc Serverless
Dataproc Serverless berücksichtigt den gesamten Datenstandort, CMEK VPC-SC und andere Sicherheitsanforderungen, die Dataproc erfüllt.
Dataproc Serverless für Spark-Batcharbeitslastfunktionen
Sie können das folgende Dataproc Serverless ausführen für Spark-Batch-Arbeitslasttypen:
- Pyspark
- Spark SQL
- Spark R
- Spark (Java oder Scala)
Sie können Spark-Attribute angeben wenn Sie eine Dataproc Serverless for Spark-Batcharbeitslast senden.