Visão geral do Dataproc no GKE

Com o Dataproc no GKE, é possível executar aplicativos de Big Data usando a API jobs do Dataproc nos clusters do GKE. Use o console do Google Cloud, a Google Cloud CLI ou a API Dataproc (solicitação HTTP ou bibliotecas de cliente do Cloud) para criar um cluster virtual do Dataproc no GKE e envie um job do Spark, PySpark, SparkR ou Spark-SQL para o serviço do Dataproc.

O Dataproc no GKE é compatível com as versões do Spark 3.1 e do Spark 3.5.

Como o Dataproc no GKE funciona

O Dataproc no GKE implanta clusters virtuais do Dataproc em um cluster do GKE. Ao contrário do Dataproc em clusters do Compute Engine, o Dataproc em clusters virtuais do GKE não inclui VMs mestre e worker separadas. Em vez disso, quando você cria um cluster virtual do Dataproc no GKE, ele cria pools de nós dentro de um cluster do GKE. Os jobs do Dataproc no GKE são executados como pods nesses pools de nós. Os pools de nós e a programação de pods nos pools são gerenciados pelo GKE.