¿Qué es Dataproc Serverless?

Dataproc Serverless te permite ejecutar cargas de trabajo de Spark sin necesidad de aprovisionar ni administrar tu propio clúster de Dataproc.

Existen dos formas de ejecutar cargas de trabajo de Dataproc Serverless:

  1. Dataproc sin servidores para Spark Batch:Usa la consola de Google Cloud, Google Cloud CLI o la API de Dataproc para enviar una carga de trabajo por lotes al servicio sin servidores de Dataproc. El servicio ejecutará la carga de trabajo en una infraestructura de procesamiento administrada y ajustará los ajustes de escala de los recursos según sea necesario. Los cargos de Dataproc Serverless solo se aplican al momento en que se ejecuta la carga de trabajo.

    Para comenzar, consulta Ejecuta una carga de trabajo por lotes de Apache Spark.

  2. Dataproc sin servidores para Spark interactivo: Escribe y ejecuta código en los notebooks de Jupyter durante una sesión de Dataproc Serverless para Spark interactivo. Puedes crear una sesión de notebook de las siguientes maneras:

    • Usa el complemento de JupyterLab de JupyterLab para crear varias sesiones de notebook a partir de plantillas que tú creas y administras. Cuando instalas el complemento en una máquina local o en una VM de Compute Engine, aparecen diferentes tarjetas que corresponden a las distintas configuraciones del kernel de Spark en la página del selector de JupyterLab. Haz clic en una tarjeta para crear una sesión de notebook sin servidores de Dataproc. Luego, comienza a escribir y probar el código en el notebook.

    El complemento de JupyterLab de Dataproc también te permite usar la página del selector de JupyterLab para realizar las siguientes acciones:

    • Crear Dataproc en clústeres de Compute Engine
    • Enviar trabajos a Dataproc en clústeres de Compute Engine
    • Visualiza los registros de Google Cloud y Spark.

Para comenzar, consulta Usa JupyterLab para sesiones de notebooks interactivas y por lotes sin servidores.

Dataproc sin servidores para Spark en comparación con Dataproc en Compute Engine

Dataproc en Compute Engine es ideal si deseas aprovisionar y administrar la infraestructura y, luego, ejecutar cargas de trabajo en Spark y otros frameworks de procesamiento de código abierto. En la siguiente tabla, se enumeran las diferencias clave entre Dataproc en Compute Engine y Dataproc Serverless for Spark.

Capacidad Dataproc sin servidores para Spark Dataproc en Compute Engine
Frameworks de procesamiento Lote: Spark 3.4 y versiones anteriores
Interactivo: Kernels de PySpark para Spark 3.4 y versiones anteriores
Spark 3.3 y versiones anteriores. Otros frameworks de código abierto, como Hive, Flink, Trino y Kafka
Sin servidores No.
Hora de inicio 60 s Década de 90
Control de la infraestructura No.
Administración de recursos Basado en Spark Basado en YARN
Asistencia de GPU Planificado
Sesiones interactivas No.
Contenedores personalizados No.
Acceso a la VM (por ejemplo, SSH) No.
Versiones de Java Java 17 y 11 Compatibilidad con versiones anteriores
Compatibilidad con OS Login * No.

Notas:

  • No se aplica una política de Acceso al SO para Dataproc Serverless, ni se la admite. Si tu organización aplica una política OS Login, fallarán sus cargas de trabajo de Dataproc Serverless.

Cumplimiento de seguridad de Dataproc Serverless

Dataproc Serverless cumple con todos los requisitos de residencia de datos, CMEK, VPC-SC y otros requisitos de seguridad con los que Dataproc cumple.

Capacidades de cargas de trabajo por lotes de Dataproc sin servidores para Spark

Puedes ejecutar los siguientes tipos de cargas de trabajo por lotes de Dataproc Serverless para los tipos de cargas de trabajo por lotes de Spark:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java o Scala)

Puedes especificar las propiedades de Spark cuando envías una carga de trabajo por lotes de Dataproc Serverless para Spark.