Dataproc su GKE consente di eseguire applicazioni di big data utilizzando
l'API Dataproc jobs
sui cluster GKE.
Utilizza la console Google Cloud, Google Cloud CLI o l'API Dataproc
(richiesta HTTP o librerie client Cloud) per
creare un cluster virtuale Dataproc su GKE,
quindi invia un job Spark, PySpark, SparkR o Spark-SQL al servizio Dataproc.
Dataproc su GKE supporta le versioni Spark 2.4 e Spark 3.1.
Come funziona Dataproc su GKE
Dataproc su GKE esegue il deployment di cluster virtuali Dataproc su un cluster GKE. A differenza di Dataproc sui cluster Compute Engine, Dataproc sui cluster virtuali GKE non include VM master e worker separate. Quando crei un cluster virtuale Dataproc su GKE, Dataproc su GKE crea pool di nodi all'interno di un cluster GKE. I job di Dataproc su GKE vengono eseguiti come pod su questi pool di nodi. I pool di nodi e la pianificazione dei pod sui pool di nodi sono gestiti da GKE.