Descripción general de Dataproc en GKE

Dataproc en GKE te permite ejecutar aplicaciones de macrodatos mediante la API de jobs de Dataproc en clústeres de GKE. Usa Google Cloud Console, la CLI de Google Cloud o la API de Dataproc (solicitud HTTP o bibliotecas cliente de Cloud) para crear un clúster virtual de Dataproc en GKE y, luego, envía un trabajo de Spark, PySpark, SparkR o Spark-SQL al servicio de Dataproc.

Dataproc en GKE es compatible con las versiones 2.4 y 3.1 de Spark.

Cómo funciona Dataproc en GKE

Dataproc en GKE implementa clústeres virtuales de Dataproc en un clúster de GKE. A diferencia de los clústeres de Dataproc en Compute Engine heredados, los clústeres virtuales de Dataproc en GKE no incluyen VM principales y de trabajador independientes. En su lugar, cuando creas un clúster virtual de Dataproc en GKE, Dataproc en GKE crea grupos de nodos dentro de un clúster de GKE. Los trabajos de Dataproc en GKE se ejecutan como Pods en estos grupos de nodos. GKE administra los grupos de nodos y la programación de pods en los grupos de nodos.