Dataproc en GKE te permite ejecutar aplicaciones de macrodatos con el
API de jobs
de Dataproc en clústeres de GKE.
Usa la consola de Google Cloud, Google Cloud CLI o la API de Dataproc
(solicitud HTTP o bibliotecas cliente de Cloud) a
crear un clúster virtual de Dataproc on GKE,
Luego, envía un trabajo de Spark, PySpark, SparkR o Spark-SQL a Dataproc
servicio.
Dataproc en GKE es compatible con las versiones de Spark 3.5.
Cómo funciona Dataproc en GKE
Dataproc en GKE implementa clústeres virtuales de Dataproc en un clúster de GKE. Desmarcar “Me gusta” Dataproc en clústeres de Compute Engine, Los clústeres virtuales de Dataproc on GKE no incluyen modelos VMs de instancia principal y de trabajador. En cambio, cuando creas un clúster virtual de Dataproc en GKE, Dataproc en GKE crea grupos de nodos dentro de un clúster de GKE. Los trabajos de Dataproc en GKE se ejecutan como pods en estos grupos de nodos. GKE administra los grupos de nodos y la programación de pods en ellos.