Qu'est-ce que Dataproc sans serveur ?

Dataproc sans serveur vous permet d'exécuter des charges de travail par lot Spark sans que vous ayez besoin de provisionner et de gérer votre propre cluster. Spécifiez les paramètres de la charge de travail, puis envoyez-la au service Dataproc sans serveur. Le service exécutera la charge de travail sur une infrastructure de calcul gérée et effectue l'autoscaling des ressources si nécessaire. Les frais sans serveur Dataproc s'appliquent uniquement au moment où la charge de travail s'exécute.

Planifier une charge de travail par lot Dataproc sans serveur dans Spark : vous pouvez planifier une charge de travail par lot Spark dans le cadre d'un workflow Airflow ou Cloud Composer à l'aide d'un opérateur Airflow par lot. Pour en savoir plus, consultez la page Exécuter des charges de travail sans serveur Dataproc avec Cloud Composer.

Dataproc sans serveur pour Spark par rapport à Dataproc sur Compute Engine

Dataproc sur Compute Engine est idéal pour les utilisateurs qui souhaitent provisionner et gérer leur infrastructure, puis exécuter des charges de travail sur Spark et d'autres frameworks de traitement Open Source. Le tableau suivant répertorie les principales différences entre Dataproc sur Compute Engine et Dataproc sans serveur pour Spark.

Capacité Dataproc sans serveur pour Spark Dataproc sur Compute Engine
Framework de traitement Spark 3.2 Versions 3.1 et antérieures D'autres frameworks Open Source tels que Hive
Sans serveur Yes Non
Temps de démarrage 60s 90
Contrôle de l'infrastructure Non Yes
Gestion des ressources Formule Spark Basée sur YARN
Compatibilité avec les GPU Planifié Yes
Sessions interactives Planifiés (gérés par Google) Oui (géré par le client)
Conteneurs personnalisés Yes Non
Accès à la VM (par exemple, SSH) Non Yes
Versions de Java Java 11 Versions précédentes compatibles
Assistance OS Login * Non Yes

Remarques :

  • Une règle OS Login n'est pas applicable ni compatible avec Dataproc sans serveur. Si votre organisation applique une règle OS Login, ses charges de travail sans serveur Dataproc échoueront.

Fonctionnalités de charge de travail Dataproc sans serveur pour Spark

Vous pouvez exécuter les types de charges de travail Spark suivants sur le service Dataproc sans serveur pour Spark:

  • Pysparks
  • Spark SQL
  • Bougie
  • Spark Java Java/Scala
    • Vous pouvez spécifier les propriétés Spark lorsque vous envoyez une charge de travail par lot Spark.