Dataproc su GKE ti consente di eseguire applicazioni per big data utilizzando
API Dataproc jobs
su cluster GKE.
Utilizza la console Google Cloud, Google Cloud CLI o l'API Dataproc
(richiesta HTTP o librerie client di Cloud)
crea un cluster virtuale Dataproc su GKE,
invia un job Spark, PySpark, SparkR o Spark-SQL a Dataproc
completamente gestito di Google Cloud.
Dataproc su GKE supporta Versioni Spark 3.1 e Spark 3.5.
Come funziona Dataproc su GKE
Dataproc su GKE esegue il deployment di cluster virtuali Dataproc su in un cluster GKE. Non mi piace Dataproc su cluster Compute Engine I cluster virtuali Dataproc su GKE non includono VM master e worker. Quando crei un cluster virtuale Dataproc su GKE, Dataproc su GKE crea pool di nodi all'interno di un cluster GKE. Dataproc su GKE i job vengono eseguiti come pod su questi pool di nodi. I pool di nodi la pianificazione dei pod sui pool di nodi è gestita da GKE.