¿Qué es Dataproc Serverless?

Dataproc Serverless te permite ejecutar cargas de trabajo de Spark sin necesidad de aprovisionar y administrar tu propio clúster de Dataproc.

Existen dos formas de ejecutar cargas de trabajo sin servidores de Dataproc:

  • Dataproc sin servidores para Spark por lotes: Usa la consola de Google Cloud, Google Cloud CLI o la API de Dataproc a fin de enviar una carga de trabajo por lotes al servicio sin servidores de Dataproc. El servicio ejecutará la carga de trabajo en una infraestructura de procesamiento administrada y ajustará los recursos según sea necesario. Los cargos sin servidores de Dataproc se aplican solo al momento en que se ejecuta la carga de trabajo.

    Para comenzar, consulta Ejecuta una carga de trabajo por lotes de Apache Spark.

  • Dataproc Serverless para Spark Interactive (previewlanzamiento): escribe y ejecuta código en notebooks de Jupyter durante una sesión interactiva de Dataproc sin servidores para Spark.

    Durante la versión de vista previa, puedes crear una sesión de notebook de las siguientes maneras:

    • Usa Vertex AI Workbench para especificar y ejecutar por separado cada sesión de notebook administrado por Google.
    • Usa el complemento de JupyterLab para Dataproc a fin de crear varias sesiones con notas a partir de plantillas que crees y administres.

    Para comenzar, consulta Crea una sesión interactiva de Dataproc sin servidores para Spark.

Dataproc sin servidores para Spark en comparación con Dataproc en Compute Engine

Dataproc en Compute Engine es ideal si deseas aprovisionar y administrar la infraestructura y, luego, ejecutar cargas de trabajo en Spark y otros frameworks de procesamiento de código abierto. En la siguiente tabla, se enumeran las diferencias clave entre Dataproc en Compute Engine y Dataproc Serverless para Spark.

Función Dataproc sin servidores para Spark Dataproc en Compute Engine
Frameworks de procesamiento Lote: Spark 3.4 y versiones anteriores
Interactivo: Kernel de PySpark para Spark 3.4 y versiones anteriores
Spark 3.3 y versiones anteriores: Otros frameworks de código abierto, como Hive, Flink, Trino y Kafka
Sin servidores No.
Hora de inicio 60 s años 90
Control de la infraestructura No.
Administración de recursos Basado en Spark Basada en YARN
Asistencia de GPU Planificado
Sesiones interactivas No.
Contenedores personalizados No.
Acceso a VM (por ejemplo, SSH) No.
Versiones de Java Java 17 y 11 Versiones anteriores compatibles
Asistencia de OS Login * No.

Capacidades de las cargas de trabajo por lotes sin servidores de Dataproc

Puedes ejecutar los siguientes tipos de cargas de trabajo por lotes sin servidores de Dataproc para Spark:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java o Scala)

Puedes especificar las propiedades de Spark cuando envías una carga de trabajo por lotes de Spark.