¿Qué es Dataproc sin servidores?

Dataproc sin servidores te permite ejecutar cargas de trabajo por lotes de Spark sin que tengas que aprovisionar y administrar tu propio clúster. Especifica los parámetros de la carga de trabajo y, luego, envíala al servicio sin servidores de Dataproc. El servicio ejecutará la carga de trabajo en una infraestructura de procesamiento administrada y con recursos de ajuste de escala automático según sea necesario. Los cargos de Dataproc Serverless solo se aplican al momento en que se ejecuta la carga de trabajo.

Programar Dataproc sin servidores para las cargas de trabajo por lotes de Spark: Puedes programar una carga de trabajo por lotes de Spark como parte de un flujo de trabajo de Airflow o Cloud Composer con un operador por lotes de Airflow. Consulte Cómo ejecutar cargas de trabajo sin servidores de Dataproc con Cloud Composer para obtener más información.

Dataproc sin servidores para Spark en comparación con Dataproc en Compute Engine

Dataproc en Compute Engine es ideal para los usuarios que desean aprovisionar y administrar la infraestructura y, luego, ejecutar cargas de trabajo en Spark y otros frameworks de procesamiento de código abierto. En la siguiente tabla, se enumeran las diferencias clave entre Dataproc en Compute Engine y Dataproc sin servidores para Spark.

Función Dataproc sin servidores para Spark Dataproc en Compute Engine
Framework de procesamiento Spark 3.2 Spark 3.1 y versiones anteriores Otros frameworks de código abierto, como Hive
Sin servidores No
Tiempo de inicio 60 s 90s
Control de la infraestructura No
Administración de recursos Basado en Spark Basado en YARN
Asistencia de GPU Planificada
Sesiones interactivas Planificadas (administradas por Google) Sí (administrado por el cliente)
Contenedores personalizados No
Acceso a VM (por ejemplo, SSH) No
Versiones de Java Java 11 Versiones anteriores compatibles
Compatibilidad con OS Login * No

Notas:

  • Dataproc Serverless no admite ni admite una política de Acceso al SO. Si tu organización aplica una política OS Login, las cargas de trabajo sin servidores de Dataproc fallarán.

Capacidades de carga de trabajo sin servidores de Dataproc

Puedes ejecutar los siguientes tipos de cargas de trabajo de Spark en el servicio sin servidores de Dataproc para Spark:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark Java/Scala
    • Puedes especificar las propiedades Spark cuando envíes una carga de trabajo por lotes de Spark.