Panoramica di Dataproc su GKE

Dataproc su GKE ti consente di eseguire applicazioni per big data utilizzando API Dataproc jobs su cluster GKE. Utilizza la console Google Cloud, Google Cloud CLI o l'API Dataproc (richiesta HTTP o librerie client di Cloud) crea un cluster virtuale Dataproc su GKE, invia un job Spark, PySpark, SparkR o Spark-SQL a Dataproc completamente gestito di Google Cloud.

Dataproc su GKE supporta Versioni Spark 3.1 e Spark 3.5.

Come funziona Dataproc su GKE

Dataproc su GKE esegue il deployment di cluster virtuali Dataproc su in un cluster GKE. Non mi piace Dataproc su cluster Compute Engine I cluster virtuali Dataproc su GKE non includono VM master e worker. Quando crei un cluster virtuale Dataproc su GKE, Dataproc su GKE crea pool di nodi all'interno di un cluster GKE. Dataproc su GKE i job vengono eseguiti come pod su questi pool di nodi. I pool di nodi la pianificazione dei pod sui pool di nodi è gestita da GKE.