Diese Seite wurde von der Cloud Translation API übersetzt.

Was ist Dataproc Serverless?

Mit Dataproc Serverless können Sie Spark-Arbeitslasten ausführen, ohne Ihren eigenen Dataproc-Cluster bereitstellen und verwalten zu müssen. Es gibt zwei Möglichkeiten, serverlose Dataproc-Arbeitslasten auszuführen:

Dataproc Serverless for Spark Batch
Dataproc Serverless für Spark Interactive

Dataproc Serverless für Spark-Batch

Verwenden Sie die Google Cloud Console, die Google Cloud CLI oder die Dataproc API, um eine Batch-Arbeitslast an den Dataproc Serverless-Dienst zu senden. Der Dienst führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Serverlose Dataproc-Gebühren gelten nur für den Zeitpunkt, an dem die Arbeitslast ausgeführt wird.

Informationen zum Einstieg finden Sie unter Apache Spark-Batcharbeitslast ausführen.

Dataproc Serverless für Spark Interactive

Sie können während einer interaktiven Dataproc Serverless for Spark-Sitzung Code in Jupyter-Notebooks schreiben und ausführen. So können Sie eine Notebooksitzung erstellen:

Mit dem Dataproc JupyterLab-Plug-in mehrere Notebooks erstellen Sitzungen aus Vorlagen, die Sie erstellen und verwalten. Wenn Sie die auf einem lokalen Computer oder einer Compute Engine-VM, die verschiedenen Spark-Kernel-Konfigurationen entsprechen, JupyterLab-Launcher-Seite. Klicken Sie auf eine Karte, um eine Dataproc Serverless-Notebooksitzung zu erstellen, und beginnen Sie dann, Ihren Code im Notebook zu schreiben und zu testen.

Mit dem Dataproc JupyterLab-Plug-in Auf der JupyterLab-Launcher-Seite können Sie die folgenden Aktionen ausführen:
- Dataproc in Compute Engine-Clustern erstellen
- Senden Sie Jobs an Dataproc in Compute Engine-Clustern.
- Google Cloud- und Spark-Logs ansehen

Weitere Informationen finden Sie unter JupyterLab für serverlose Batch- und interaktive Notebook-Sitzungen verwenden.

Dataproc Serverless für Spark im Vergleich zu Dataproc in der Compute Engine

Dataproc in der Compute Engineeignet sich ideal, wenn Sie Infrastruktur bereitstellen und verwalten und dann Arbeitslasten in Spark und anderen Open-Source-Verarbeitungs-Frameworks ausführen möchten. In der folgenden Tabelle sind die wichtigsten Unterschiede zwischen Dataproc in der Compute Engine und Dataproc Serverless für Spark aufgeführt.

Leistungsvermögen	Serverloses Dataproc für Spark	Dataproc in Compute Engine
Frameworks verarbeiten	Batch: Spark 3.4 und frühere Versionen Interaktiv: PySpark-Kernel für Spark 3.4 und frühere Versionen	Spark 3.3 und frühere Versionen. Andere Open-Source-Frameworks, wie Hive, Flink, Trino und Kafka
Serverlos	Ja	Nein
Startzeit	60 Sekunden	90er
Infrastrukturkontrolle	Nein	Ja
Ressourcenverwaltung	Spark-basiert	YARN-basiert
GPU-Unterstützung	Ja	Ja
Interaktive Sitzungen	Ja	Nein
Benutzerdefinierte Container	Ja	Nein
VM-Zugriff (z. B. SSH)	Nein	Ja
Java-Versionen	Java 17, 11	Vorherige Versionen werden unterstützt
`OS Login` Support *	Nein	Ja

Hinweise:

Eine OS Login-Richtlinie ist auf Dataproc Serverless nicht anwendbar und wird von diesem nicht unterstützt. Wenn Ihre Organisation eine OS Login-Richtlinie erzwingt, werden die zugehörigen serverlosen Dataproc-Arbeitslasten schlägt fehl.

Compliance bei der Sicherheit von Dataproc Serverless

Dataproc Serverless berücksichtigt den gesamten Datenstandort, CMEK VPC-SC und andere Sicherheitsanforderungen, die Dataproc erfüllt.

Funktionen für serverlose Dataproc-Batcharbeitslasten für Spark

Sie können das folgende Dataproc Serverless ausführen für Spark-Batch-Arbeitslasttypen:

Pyspark
Spark SQL
Spark R
Spark (Java oder Scala)

Sie können Spark-Eigenschaften angeben, wenn Sie eine serverlose Dataproc-Batcharbeitslast für Spark einreichen.