Dataproc Serverless te permite ejecutar cargas de trabajo de Spark sin necesidad de aprovisionar ni administrar tu propio clúster de Dataproc. Hay dos maneras de ejecutar cargas de trabajo de Dataproc Serverless:
Dataproc Serverless para Spark por lotes
Envía una carga de trabajo por lotes al servicio sin servidor de Dataproc con la consola de Google Cloud, Google Cloud CLI o la API de Dataproc. El servicio ejecuta la carga de trabajo en una infraestructura de procesamiento administrada y ajusta los recursos de forma automática según sea necesario. Los cargos de Dataproc Serverless se aplican solo al momento en que se ejecuta la carga de trabajo.
Para comenzar, consulta Cómo ejecutar una carga de trabajo por lotes de Apache Spark.
Dataproc Serverless para Spark interactivo
Escribe y ejecuta código en notebooks de Jupyter durante una sesión interactiva de Dataproc Serverless para Spark. Puedes crear una sesión de notebook de las siguientes maneras:
Usa el complemento de JupyterLab de Dataproc para crear varias sesiones de notebooks a partir de plantillas que crees y administres. Cuando instalas el plugin en una máquina local o una VM de Compute Engine, aparecen diferentes tarjetas que corresponden a diferentes configuraciones del kernel de Spark en la página del selector de JupyterLab. Haz clic en una tarjeta para crear una sesión de notebook de Dataproc Serverless y, luego, comienza a escribir y probar tu código en el notebook.
El complemento de JupyterLab de Dataproc también te permite usar la página del selector de JupyterLab para realizar las siguientes acciones:
- Crea clústeres de Dataproc en Compute Engine.
- Envía trabajos a Dataproc en clústeres de Compute Engine.
- Consulta los registros de Google Cloud y Spark.
Para comenzar, consulta Cómo usar JupyterLab para sesiones de notebooks interactivos y por lotes sin servidores.
Comparación entre Dataproc Serverless para Spark y Dataproc en Compute Engine
Si deseas aprovisionar y administrar la infraestructura y, luego, ejecutar cargas de trabajo en Spark y otros frameworks de procesamiento de código abierto, usa Dataproc en Compute Engine. En la siguiente tabla, se enumeran las diferencias clave entre Dataproc en Compute Engine y Dataproc sin servidor para Spark.
Función | Dataproc Serverless para Spark | Dataproc en Compute Engine |
---|---|---|
Frameworks de procesamiento | Por lotes: Spark 3.4 y versiones anteriores Interactivo: Kernels de PySpark para Spark 3.4 y versiones anteriores |
Spark 3.3 y versiones anteriores Otros frameworks de código abierto, como Hive, Flink, Trino y Kafka |
Sin servidores | Sí | No |
Hora de inicio | 60 s | años 90 |
Control de la infraestructura | No | Sí |
Administración de recursos | Basada en Spark | Basado en YARN |
Asistencia de GPU | Sí | Sí |
Sesiones interactivas | Sí | No |
Contenedores personalizados | Sí | No |
Acceso a la VM (por ejemplo, SSH) | No | Sí |
Versiones de Java | Java 17 y 11 | Versiones anteriores compatibles |
OS Login
compatibilidad * |
No | Sí |
Notas:
- Una política de Acceso al SO no se aplica a Dataproc Serverless ni es compatible con esta.
Si tu organización aplica una política de
OS Login
, fallarán sus cargas de trabajo de Dataproc Serverless.
Cumplimiento de seguridad de Dataproc Serverless
Dataproc Serverless cumple con todos los requisitos de residencia de datos, CMEK, VPC-SC y otros requisitos de seguridad que cumple Dataproc.
Funciones de las cargas de trabajo por lotes de Dataproc Serverless para Spark
Puedes ejecutar los siguientes tipos de cargas de trabajo por lotes de Dataproc Serverless para Spark:
- PySpark
- Spark SQL
- Spark R
- Spark (Java o Scala)
Puedes especificar propiedades de Spark cuando envías una carga de trabajo por lotes de Dataproc Serverless para Spark.