Dataproc sans serveur vous permet d'exécuter des charges de travail Spark sans que vous ayez à provisionner et à gérer votre propre cluster Dataproc.
Il existe deux façons d'exécuter des charges de travail sans serveur Dataproc:
Dataproc sans serveur pour Spark par lot:utilisez la console Google Cloud, Google Cloud CLI ou l'API Dataproc pour envoyer une charge de travail par lot au service Dataproc sans serveur. Le service exécutera la charge de travail sur une infrastructure de calcul gérée, en ajustant automatiquement les ressources si nécessaire. Les frais Dataproc sans serveur s'appliquent uniquement au moment où la charge de travail s'exécute.
Pour commencer, consultez Exécuter une charge de travail par lot Apache Spark.
Dataproc sans serveur pour Spark Interactive (preview) : écrivez et exécutez du code dans les notebooks Jupyter lors d'une session Dataproc Server sans Spark interactive.
Dans la version preview, vous pouvez créer une session de notebook de différentes manières:
- Utilisez Vertex AI Workbench pour spécifier et exécuter séparément chaque session de notebook gérée par Google.
- Utilisez le plug-in Dataproc JupyterLab pour créer plusieurs sessions Noteboook à partir de modèles que vous créez et gérez.
Pour commencer, consultez Créer une session Dataproc sans serveur pour Dataproc Interactive.
Dataproc sans serveur pour Spark par rapport à Dataproc sur Compute Engine
Dataproc sur Compute Engine est la solution idéale si vous souhaitez provisionner et gérer votre infrastructure, puis exécuter des charges de travail sur Spark et d'autres frameworks de traitement Open Source. Le tableau suivant liste les principales différences entre Dataproc sur Compute Engine et Dataproc sans serveur pour Spark.
Capacité | Dataproc sans serveur | Dataproc sur Compute Engine |
---|---|---|
Frameworks de traitement | Batch: Spark 3.4 et versions antérieures Interactive: noyaux PySpark pour Spark 3.4 et versions antérieures |
Spark 3.3 et versions antérieures Autres frameworks Open Source, tels que Hive, Flink, Trino et Kafka |
Sans serveur | Yes | Non |
Temps de démarrage | 60s | 90s |
Contrôle de l'infrastructure | Non | Yes |
Gestion des ressources | Avec Spark | Basé sur YARN |
Compatibilité avec les GPU | Planifié | Yes |
Sessions interactives | Yes | Non |
Conteneurs personnalisés | Yes | Non |
Accès aux VM (par exemple, SSH) | Non | Yes |
Versions Java | Java 17, 11 | Versions précédentes compatibles |
Assistance OS Login * |
Non | Yes |
Services sans serveur avec Dataproc pour les charges de travail par lot Spark
Vous pouvez exécuter les types de charges de travail par lot Dataproc sans serveur suivants pour Spark:
- Pyspark
- Spark SQL
- Spark R
- Spark (Java ou Scala)
Vous pouvez spécifier des propriétés Spark lorsque vous envoyez une charge de travail par lot Spark.