Qu'est-ce que Dataproc sans serveur ?

Dataproc sans serveur vous permet d'exécuter des charges de travail Spark sans que vous ayez à provisionner et à gérer votre propre cluster Dataproc.

Il existe deux façons d'exécuter des charges de travail sans serveur Dataproc:

Dataproc sans serveur pour Spark par rapport à Dataproc sur Compute Engine

Dataproc sur Compute Engine est la solution idéale si vous souhaitez provisionner et gérer votre infrastructure, puis exécuter des charges de travail sur Spark et d'autres frameworks de traitement Open Source. Le tableau suivant liste les principales différences entre Dataproc sur Compute Engine et Dataproc sans serveur pour Spark.

Capacité Dataproc sans serveur Dataproc sur Compute Engine
Frameworks de traitement Batch: Spark 3.4 et versions antérieures
Interactive: noyaux PySpark pour Spark 3.4 et versions antérieures
Spark 3.3 et versions antérieures Autres frameworks Open Source, tels que Hive, Flink, Trino et Kafka
Sans serveur Yes Non
Temps de démarrage 60s 90s
Contrôle de l'infrastructure Non Yes
Gestion des ressources Avec Spark Basé sur YARN
Compatibilité avec les GPU Planifié Yes
Sessions interactives Yes Non
Conteneurs personnalisés Yes Non
Accès aux VM (par exemple, SSH) Non Yes
Versions Java Java 17, 11 Versions précédentes compatibles
Assistance OS Login * Non Yes

Services sans serveur avec Dataproc pour les charges de travail par lot Spark

Vous pouvez exécuter les types de charges de travail par lot Dataproc sans serveur suivants pour Spark:

  • Pyspark
  • Spark SQL
  • Spark R
  • Spark (Java ou Scala)

Vous pouvez spécifier des propriétés Spark lorsque vous envoyez une charge de travail par lot Spark.