Dataproc Serverless te permite ejecutar cargas de trabajo de Spark sin necesidad de aprovisionar y administrar tu propio clúster de Dataproc. Existen dos maneras de ejecutar cargas de trabajo de Dataproc Serverless:
Dataproc Serverless para Spark Batch
Usa la consola de Google Cloud, Google Cloud CLI o la API de Dataproc para enviar una carga de trabajo por lotes al servicio de Dataproc Serverless. El servicio ejecutará la carga de trabajo en una infraestructura de procesamiento administrada con ajuste de escala automático de los recursos según sea necesario. Los cargos de Dataproc Serverless se aplican solo al momento en que se ejecuta la carga de trabajo.
Para comenzar, consulta Ejecuta una carga de trabajo por lotes de Apache Spark.
Dataproc Serverless para Spark Interactive
Escribir y ejecutar código en notebooks de Jupyter durante una sesión de Dataproc Serverless para Spark Interactive Puedes crear una sesión de notebook de las siguientes maneras:
Usa el complemento de JupyterLab de Dataproc para crear varias sesiones de notebook a partir de plantillas que creas y administras. Cuando instalas el complemento en una máquina local o en una VM de Compute Engine, aparecen diferentes tarjetas que corresponden a diferentes configuraciones del kernel de Spark en la página del selector de JupyterLab. Haz clic en una tarjeta para crear una sesión de notebook de Dataproc Serverless y, luego, comienza a escribir y probar tu código en el notebook.
El complemento de JupyterLab de Dataproc también te permite usar la página del selector de JupyterLab para realizar las siguientes acciones:
- Crear clústeres de Dataproc en Compute Engine
- Enviar trabajos a clústeres de Dataproc en Compute Engine
- Ver los registros de Google Cloud y Spark.
Para comenzar, consulta Usa JupyterLab para sesiones de notebooks interactivas y por lotes sin servidores.
Dataproc Serverless para Spark en comparación con Dataproc en Compute Engine
Dataproc en Compute Engine es ideal si deseas aprovisionar y administrar infraestructura y, luego, ejecutar cargas de trabajo en Spark y otros frameworks de procesamiento de código abierto. En la siguiente tabla, se enumeran las diferencias clave entre Dataproc en Compute Engine y Dataproc Serverless para Spark.
Capacidades | Dataproc sin servidores para Spark | Dataproc en Compute Engine |
---|---|---|
Frameworks de procesamiento | Batch: Spark 3.4 y versiones anteriores Interactivo: Kernels de PySpark para Spark 3.4 y versiones anteriores |
Spark 3.3 y versiones anteriores. Otros frameworks de código abierto, como Hive, Flink, Trino y Kafka |
Sin servidores | Sí | No |
Hora de inicio | 60 s | Década de 1990 |
Control de la infraestructura | No | Sí |
Administración de recursos | Basada en chispa | Basadas en YARN |
Asistencia de GPU | Yes | Sí |
Sesiones interactivas | Sí | No |
Contenedores personalizados | Yes | No |
Acceso a VM (por ejemplo, SSH) | No | Sí |
Versiones de Java | Java 17 y 11 | Versiones anteriores compatibles |
Asistencia de OS Login * |
No | Sí |
Notas:
- Una política de Acceso al SO no se aplica a Dataproc Serverless ni es compatible con él.
Si tu organización aplica una política
OS Login
, las cargas de trabajo de Dataproc Serverless fallarán.
Cumplimiento de la seguridad de Dataproc Serverless
Dataproc Serverless cumple con todos los requisitos de residencia de datos, CMEK, VPC-SC y otros requisitos de seguridad con los que Dataproc cumple.
Capacidades de carga de trabajo por lotes de Dataproc sin servidores para Spark
Puedes ejecutar Dataproc Serverless para tipos de cargas de trabajo por lotes de Spark:
- PySpark
- Spark SQL
- Spark R
- Spark (Java o Scala)
Puedes especificar las propiedades de Spark cuando envíes una carga de trabajo por lotes de Dataproc Serverless para Spark.