Dataproc su GKE ti consente di eseguire applicazioni per big data utilizzando l'API Dataproc jobs
sui cluster GKE.
Utilizza la console Google Cloud, Google Cloud CLI o l'API Dataproc (richiesta HTTP o librerie client di Cloud) per creare un cluster virtuale Dataproc su GKE, quindi invia un job Spark, PySpark, SparkR o Spark-SQL al servizio Dataproc.
Dataproc su GKE supporta le versioni di Spark 3.1 e Spark 3.5.
Come funziona Dataproc su GKE
Dataproc su GKE esegue il deployment di cluster virtuali Dataproc su un cluster GKE. A differenza dei cluster Dataproc su Compute Engine, Dataproc sui cluster virtuali GKE non include VM master e worker separate. Invece, quando crei un cluster virtuale Dataproc su GKE, Dataproc su GKE crea pool di nodi all'interno di un cluster GKE. I job Dataproc on GKE vengono eseguiti come pod su questi pool di nodi. I pool di nodi e la pianificazione dei pod sui pool di nodi sono gestiti da GKE.