Dataproc sur GKE vous permet d'exécuter des applications de big data à l'aide du
API Dataproc jobs
sur les clusters GKE.
Utilisez la console Google Cloud, la Google Cloud CLI ou l'API Dataproc (requête HTTP ou bibliothèques clientes Cloud) pour créer un cluster virtuel Dataproc sur GKE, puis envoyez une tâche Spark, PySpark, SparkR ou Spark-SQL au service Dataproc.
Dataproc sur GKE est compatible avec Versions de Spark 3.5
Fonctionnement de Dataproc sur GKE
Dataproc sur GKE déploie des clusters virtuels Dataproc sur un cluster GKE. Contrairement à Dataproc sur les clusters Compute Engine, Dataproc sur les clusters virtuels GKE n'inclut pas de VM maître et de VM de calcul distinctes. Au lieu de cela, lorsque vous créez un cluster virtuel Dataproc sur GKE, Dataproc sur GKE crée des pools de nœuds dans un cluster GKE. Dataproc sur GKE sont exécutés en tant que pods sur ces pools de nœuds. Les pools de nœuds et la planification des pods sur les pools de nœuds sont gérés par GKE.