Panoramica di Dataproc su GKE

Dataproc su GKE ti consente di eseguire applicazioni per big data utilizzando l'API Dataproc jobs sui cluster GKE. Utilizza la console Google Cloud, Google Cloud CLI o l'API Dataproc (richiesta HTTP o librerie client di Cloud) per creare un cluster virtuale Dataproc su GKE, quindi invia un job Spark, PySpark, SparkR o Spark-SQL al servizio Dataproc.

Dataproc su GKE supporta le versioni di Spark 3.1 e Spark 3.5.

Come funziona Dataproc su GKE

Dataproc su GKE esegue il deployment di cluster virtuali Dataproc su un cluster GKE. A differenza dei cluster Dataproc su Compute Engine, Dataproc sui cluster virtuali GKE non include VM master e worker separate. Invece, quando crei un cluster virtuale Dataproc su GKE, Dataproc su GKE crea pool di nodi all'interno di un cluster GKE. I job Dataproc on GKE vengono eseguiti come pod su questi pool di nodi. I pool di nodi e la pianificazione dei pod sui pool di nodi sono gestiti da GKE.