Was ist Dataproc Serverless?

Mit Dataproc Serverless können Sie Spark-Arbeitslasten ausführen, ohne einen eigenen Dataproc-Cluster bereitstellen und verwalten zu müssen.

Es gibt zwei Möglichkeiten, Dataproc Serverless-Arbeitslasten auszuführen:

  1. Dataproc Serverless für Spark Batch:Verwenden Sie die Google Cloud Console, die Google Cloud CLI oder die Dataproc API, um eine Batcharbeitslast an den Dataproc Serverless-Dienst zu senden. Der Dienst führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert Ressourcen nach Bedarf. Die Gebühren für serverloses Dataproc-Computing gelten nur für die Ausführungszeit der Arbeitslast.

    Informationen zum Einstieg finden Sie unter Apache Spark-Batcharbeitslast ausführen.

  2. Dataproc Serverless for Spark Interactive: Schreiben und führen Sie Code in Jupyter-Notebooks während einer Dataproc Serverless for Spark Interactive-Sitzung aus. Sie können eine Notebook-Sitzung auf folgende Arten erstellen:

    • Verwenden Sie das Dataproc JupyterLab-Plug-in, um mehrere Notebook-Sitzungen anhand von Vorlagen zu erstellen, die Sie erstellen und verwalten. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Launcher-Seite verschiedene Karten angezeigt, die den verschiedenen Spark-Kernel-Konfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Dataproc Serverless-Notebooksitzung zu erstellen, und beginnen Sie dann, Ihren Code im Notebook zu schreiben und zu testen.

    Mit dem Dataproc JupyterLab-Plug-in können Sie auch die JupyterLab-Launcher-Seite verwenden, um folgende Aktionen auszuführen:

    • Dataproc in Compute Engine-Clustern erstellen
    • Jobs an Dataproc auf Compute Engine-Clustern senden
    • Google Cloud- und Spark-Logs ansehen.

Informationen zum Einstieg finden Sie unter JupyterLab für serverlose Batch- und interaktive Notebook-Sitzungen verwenden.

Dataproc Serverless für Spark und Dataproc in Compute Engine

Dataproc in Compute Engine ist ideal, wenn Sie eine Infrastruktur bereitstellen und verwalten und dann Arbeitslasten in Spark und anderen Open-Source-Verarbeitungs-Frameworks ausführen möchten. In der folgenden Tabelle sind die wichtigsten Unterschiede zwischen Dataproc auf Compute Engine und Dataproc Serverless for Spark aufgeführt.

Voraussetzung Serverloses Dataproc für Spark Dataproc in Compute Engine
Verarbeitungs-Frameworks Batch: Spark 3.4 und frühere Versionen
Interaktiv: PySpark-Kernel für Spark 3.4 und frühere Versionen
Spark 3.3 und ältere Versionen. Andere Open-Source-Frameworks wie Hive, Flink, Trino und Kafka
Serverlos Ja Nein
Startzeit 60 Sekunden 90er
Kontrolle über die Infrastruktur Nein Ja
Ressourcenverwaltung Spark-basiert YARN-basiert
GPU-Unterstützung Geplant Ja
Interaktive Sitzungen Ja Nein
Benutzerdefinierte Container Ja Nein
VM-Zugriff (z. B. SSH) Nein Ja
Java-Versionen Java 17, 11 Unterstützte frühere Versionen
OS Login-Support * Nein Ja

Hinweise:

  • Eine OS Login-Richtlinie gilt nicht für Dataproc Serverless und wird von diesem nicht unterstützt. Wenn Ihre Organisation eine OS Login-Richtlinie erzwingt, schlagen ihre serverlosen Dataproc-Arbeitslasten fehl.

Serverlose Sicherheitscompliance von Dataproc

Dataproc Serverless erfüllt alle Datenstandort, CMEK, VPC-SC und andere Sicherheitsanforderungen, die Dataproc erfüllt.

Dataproc Serverless für Spark-Batch-Arbeitslastfunktionen

Sie können die folgenden Batch-Arbeitslasttypen von Dataproc Serverless für Spark ausführen:

  • Logo: PySpark
  • Spark SQL
  • Spark R
  • Spark (Java oder Scala)

Sie können Spark-Attribute angeben, wenn Sie eine Batcharbeitslast von Dataproc Serverless for Spark senden.