Panoramica di Dataproc su GKE

Dataproc su GKE consente di eseguire applicazioni di big data utilizzando l'API Dataproc jobs sui cluster GKE. Utilizza la console Google Cloud, Google Cloud CLI o l'API Dataproc (richiesta HTTP o librerie client Cloud) per creare un cluster virtuale Dataproc su GKE, quindi invia un job Spark, PySpark, SparkR o Spark-SQL al servizio Dataproc.

Dataproc su GKE supporta le versioni Spark 2.4 e Spark 3.1.

Come funziona Dataproc su GKE

Dataproc su GKE esegue il deployment di cluster virtuali Dataproc su un cluster GKE. A differenza di Dataproc sui cluster Compute Engine, Dataproc sui cluster virtuali GKE non include VM master e worker separate. Quando crei un cluster virtuale Dataproc su GKE, Dataproc su GKE crea pool di nodi all'interno di un cluster GKE. I job di Dataproc su GKE vengono eseguiti come pod su questi pool di nodi. I pool di nodi e la pianificazione dei pod sui pool di nodi sono gestiti da GKE.