Visão geral do Dataproc no GKE

O Dataproc no GKE permite executar aplicativos de Big Data usando o API Dataproc jobs nos clusters do GKE. Usar o console do Google Cloud, a Google Cloud CLI ou a API Dataproc (solicitação HTTP ou bibliotecas de cliente do Cloud) para criar um cluster virtual do Dataproc no GKE; depois envie um job do Spark, PySpark, SparkR ou Spark-SQL ao Dataproc serviço.

O Dataproc no GKE dá suporte Versões do Spark 3.1 e do Spark 3.5.

Como funciona o Dataproc no GKE

O Dataproc no GKE implanta clusters virtuais do Dataproc em um cluster do GKE. Não gostei Dataproc em clusters do Compute Engine; Os clusters virtuais do Dataproc on GKE não incluem VMs mestre e de trabalho. Em vez disso, ao criar um cluster virtual do Dataproc on GKE, O Dataproc no GKE cria pools de nós em um cluster do GKE. Dataproc no GKE jobs são executados como pods nesses pools de nós. Os pools de nós e a programação de pods nos pools de nós é gerenciada pelo GKE.