Qu'est-ce que Dataproc sans serveur ?

Dataproc sans serveur vous permet d'exécuter des charges de travail Spark sans avoir à provisionner et à gérer votre propre cluster Dataproc.

Il existe deux façons d'exécuter des charges de travail Dataproc sans serveur:

  1. Dataproc sans serveur pour Spark Batch:utilisez la console Google Cloud, Google Cloud CLI ou l'API Dataproc pour envoyer une charge de travail par lot au service Dataproc sans serveur. Le service exécutera la charge de travail sur une infrastructure de calcul gérée en appliquant un autoscaling des ressources en fonction des besoins. Les frais Dataproc sans serveur ne s'appliquent qu'au moment d'exécution de la charge de travail.

    Pour commencer, consultez la page Exécuter une charge de travail par lot Apache Spark.

  2. Dataproc sans serveur pour Spark Interactive : écrivez et exécutez du code dans des notebooks Jupyter au cours d'une session Dataproc sans serveur pour Spark Interactive. Vous pouvez créer une session de notebook des manières suivantes:

    • Utilisez le plug-in Dataproc JupyterLab pour créer plusieurs sessions de notebook à partir de modèles que vous créez et gérez. Lorsque vous installez le plug-in sur une machine locale ou une VM Compute Engine, différentes cartes correspondant à différentes configurations de noyau Spark s'affichent sur la page du lanceur d'applications de JupyterLab. Cliquez sur une fiche pour créer une session de notebook Dataproc sans serveur, puis commencez à écrire et à tester votre code dans le notebook.

    Le plug-in Dataproc JupyterLab vous permet également d'utiliser la page du lanceur d'applications JupyterLab pour effectuer les actions suivantes:

    • Créer des clusters Dataproc sur Compute Engine
    • Envoyer des tâches à des clusters Dataproc sur Compute Engine
    • Affichez les journaux Google Cloud et Spark.

Pour commencer, consultez la page Utiliser JupyterLab pour les sessions de notebook interactives et par lot sans serveur.

Dataproc sans serveur pour Spark par rapport à Dataproc sur Compute Engine

Dataproc sur Compute Engine est idéal si vous souhaitez provisionner et gérer une infrastructure, puis exécuter des charges de travail sur Spark et d'autres frameworks de traitement Open Source. Le tableau suivant répertorie les principales différences entre Dataproc sur Compute Engine et Dataproc sans serveur pour Spark.

Capacité Dataproc sans serveur pour Spark Dataproc sur Compute Engine
Cadres de traitement Lot: Spark 3.4 et versions antérieures
Interactive: noyaux PySpark pour Spark 3.4 et versions antérieures
Spark 3.3 et versions antérieures. D'autres frameworks Open Source, tels que Hive, Flink, Trino et Kafka
Sans serveur Oui Non
Temps de démarrage 60s Années 90
Contrôle de l'infrastructure Non Oui
Gestion des ressources Basé sur Spark Basé sur YARN
Compatibilité avec les GPU Planifié Oui
Sessions interactives Oui Non
Conteneurs personnalisés Oui Non
Accès à la VM (SSH, par exemple) Non Oui
Versions de Java Java 17, 11 Versions précédentes compatibles
Assistance OS Login * Non Oui

Remarques :

  • Une règle OS Login n'est pas applicable à Dataproc sans serveur ni compatible avec celui-ci. Si votre organisation applique une règle OS Login, ses charges de travail Dataproc sans serveur échoueront.

Conformité de la sécurité sans serveur pour Dataproc

Dataproc sans serveur respecte toutes les exigences de sécurité auxquelles Dataproc est conforme en termes de résidence des données, de CMEK, de VPC-SC et d'autres exigences de sécurité.

Fonctionnalités de Dataproc sans serveur pour les charges de travail par lot Spark

Vous pouvez exécuter les types de charges de travail par lot Dataproc sans serveur suivants pour Spark:

  • Pyspark
  • Spark SQL
  • Spark R
  • Spark (Java ou Scala)

Vous pouvez spécifier des propriétés Spark lorsque vous envoyez une charge de travail par lot Dataproc sans serveur pour Spark.