Cette page a été traduite par l'API Cloud Translation.

Qu'est-ce que Dataproc sans serveur ?

Dataproc sans serveur vous permet d'exécuter des charges de travail Spark sans vous obliger pour provisionner et gérer votre propre cluster Dataproc. Il existe deux façons d'exécuter des charges de travail Dataproc sans serveur :

Dataproc sans serveur pour Spark Batch
Dataproc sans serveur pour Spark Interactive

Dataproc sans serveur pour Spark Batch

Utiliser la console Google Cloud, Google Cloud CLI ou l'API Dataproc pour envoyer une charge de travail par lot au service Dataproc sans serveur. Le service s'exécutera la charge de travail sur une infrastructure de calcul gérée, en adaptant les ressources selon les besoins. Les frais Dataproc sans serveur ne s'appliquent qu'aux l'heure d'exécution de la charge de travail.

Pour commencer, consultez Exécutez une charge de travail par lot Apache Spark.

Dataproc sans serveur pour Spark Interactive

Écrire et exécuter du code dans des notebooks Jupyter lors d'une migration Dataproc sans serveur pour Session Spark interactive. Vous pouvez créer une session de notebook dans les différentes manières:

Utilisez le plug-in Dataproc JupyterLab pour créer plusieurs notebooks à partir de modèles que vous créez et gérez. Lorsque vous installez sur une machine locale ou sur une VM Compute Engine, sur différentes cartes correspondant à différentes configurations de noyau Spark apparaissent Page du lanceur d'applications JupyterLab Cliquez sur une fiche pour créer une instance Dataproc sans serveur une session de notebook, puis commencez à écrire et à tester votre code dans le notebook.

Le plug-in Dataproc JupyterLab vous permet également utilisez la page du lanceur d'applications JupyterLab pour:
- Créez des clusters Dataproc sur Compute Engine.
- Envoyez des tâches à Dataproc sur des clusters Compute Engine.
- Afficher les journaux Google Cloud et Spark

Pour commencer, consultez Utilisez JupyterLab pour les sessions de notebook interactives et par lot sans serveur.

Comparaison entre Dataproc sans serveur pour Spark et Dataproc sur Compute Engine

Dataproc sur Compute Engine est idéal pour provisionner et gérer l'infrastructure, puis exécuter sur Spark et d'autres frameworks de traitement Open Source. Le tableau suivant répertorie les principales différences entre les API Dataproc on Compute Engine et Dataproc sans serveur pour Spark.

Capacité	Dataproc sans serveur pour Spark	Dataproc sur Compute Engine
Frameworks de traitement	Par lot : Spark 3.4 ou version antérieure Interactif : noyaux PySpark pour Spark 3.4 ou version antérieure	Spark 3.3 et versions antérieures D'autres frameworks Open Source, tels que Hive, Flink, Trino et Kafka
Sans serveur	Oui	Non
Temps de démarrage	60 s	Années 90
Contrôle de l'infrastructure	Non	Oui
Gestion des ressources	Basé sur Spark	Basé sur YARN
Compatibilité avec les GPU	Oui	Oui
Sessions interactives	Oui	Non
Conteneurs personnalisés	Oui	Non
Accès à la VM (par exemple, SSH)	Non	Oui
Versions Java	Java 17, 11	Versions précédentes compatibles
`OS Login` Prise en charge*	Non	Oui

Remarques :

Une règle OS Login n'est pas applicable ni compatible avec Dataproc sans serveur. Si votre organisation applique une règle OS Login, ses charges de travail sans serveur Dataproc échouera.

Conformité de Dataproc en matière de sécurité sans serveur

Dataproc sans serveur respecte toutes les règles de résidence des données. CMEK VPC-SC et d'autres exigences de sécurité auxquelles Dataproc est conforme.

Fonctionnalités de la charge de travail par lot Dataproc sans serveur pour Spark

Vous pouvez exécuter les types de charges de travail par lot Dataproc sans serveur pour Spark suivants :

Pyspark
Spark SQL
Spark R
Spark (Java ou Scala)

Vous pouvez spécifier des propriétés Spark lorsque vous envoyez une charge de travail par lot Dataproc sans serveur pour Spark.