Vista geral do Dataproc no GKE

O Dataproc no GKE permite-lhe executar aplicações de Big Data através da API Dataproc jobs em clusters do GKE. Use a Google Cloud consola, a CLI do Google Cloud ou a API Dataproc (pedido HTTP ou bibliotecas cliente do Google Cloud) para criar um cluster virtual do Dataproc no GKE, em seguida, envie uma tarefa Spark, PySpark, SparkR ou Spark-SQL para o serviço Dataproc.

O Dataproc no GKE suporta as versões do Spark 3.5.

Como funciona o Dataproc no GKE

O Dataproc no GKE implementa clusters virtuais do Dataproc num cluster do GKE. Ao contrário dos clusters do Dataproc no Compute Engine, os clusters virtuais do Dataproc no GKE não incluem VMs principais e de trabalho separadas. Em alternativa, quando cria um cluster virtual do Dataproc no GKE, o Dataproc no GKE cria pools de nós num cluster do GKE. As tarefas do Dataproc no GKE são executadas como pods nestes conjuntos de nós. Os node pools e o agendamento de pods nos node pools são geridos pelo GKE.