Descripción general de Dataproc on GKE

Dataproc en GKE te permite ejecutar aplicaciones de macrodatos con el API de jobs de Dataproc en clústeres de GKE. Usa la consola de Google Cloud, Google Cloud CLI o la API de Dataproc (solicitud HTTP o bibliotecas cliente de Cloud) a crear un clúster virtual de Dataproc on GKE, Luego, envía un trabajo de Spark, PySpark, SparkR o Spark-SQL a Dataproc servicio.

Dataproc en GKE admite Versiones de Spark 3.1 y Spark 3.5

Cómo funciona Dataproc en GKE

Dataproc en GKE implementa clústeres virtuales de Dataproc en un clúster de GKE. Desmarcar “Me gusta” Clústeres de Dataproc en Compute Engine, Los clústeres virtuales de Dataproc on GKE no incluyen modelos VMs de instancia principal y de trabajador. En su lugar, cuando creas un clúster virtual de Dataproc on GKE, Dataproc en GKE crea grupos de nodos dentro de un clúster de GKE. Dataproc en GKE los trabajos se ejecutan como Pods en estos grupos de nodos. Los grupos de nodos y la programación de Pods en los grupos de nodos.