Visão geral do Dataproc no GKE

O Dataproc no GKE permite executar aplicativos de Big Data usando a API jobs do Dataproc nos clusters do GKE. Use o console do Google Cloud, a Google Cloud CLI ou a API Dataproc (solicitação HTTP ou bibliotecas de cliente do Cloud) para criar um cluster virtual do Dataproc no GKE e envie um job do Spark, do PySpark, do SparkR ou do Spark-SQL para o serviço do Dataproc.

O Dataproc no GKE é compatível com as versões do Spark 2.4 e do Spark 3.1.

Como funciona o Dataproc no GKE

O Dataproc no GKE implanta clusters virtuais do Dataproc em um cluster do GKE. Ao contrário do Dataproc em clusters do Compute Engine, o Dataproc em clusters virtuais do GKE não inclui VMs mestre e de trabalho separadas. Em vez disso, quando você cria um Dataproc no cluster virtual do GKE, o Dataproc no GKE cria pools de nós em um cluster do GKE. Os jobs do Dataproc no GKE são executados como pods nesses pools de nós. Os pools de nós e a programação de pods nos pools são gerenciados pelo GKE.