Présentation de Dataproc sur GKE

Dataproc sur GKE vous permet d'exécuter des applications de big data à l'aide du API Dataproc jobs sur les clusters GKE. Utiliser la console Google Cloud, Google Cloud CLI ou l'API Dataproc (requête HTTP ou bibliothèques clientes Cloud) pour Créez un cluster virtuel Dataproc sur GKE. puis envoyez un job Spark, PySpark, SparkR ou Spark-SQL à Dataproc Google Cloud.

Dataproc sur GKE est compatible avec Versions Spark 3.1 et Spark 3.5

Fonctionnement de Dataproc sur GKE

Dataproc sur GKE déploie des clusters virtuels Dataproc sur un cluster GKE. Retirer le "J’aime" Dataproc sur les clusters Compute Engine Les clusters virtuels Dataproc sur GKE n'incluent pas de composants des VM maîtres et des VM de nœud de calcul. Au lieu de cela, lorsque vous créez un cluster virtuel Dataproc sur GKE, Dataproc sur GKE crée des pools de nœuds dans un cluster GKE. Dataproc sur GKE sont exécutés en tant que pods sur ces pools de nœuds. Les pools de nœuds la planification des pods sur les pools de nœuds est gérée par GKE.