Configuración de la red de Dataproc Serverless para Spark

En este documento, se describen los requisitos necesarios para la configuración de la red de Dataproc Serverless para Spark.

Requisitos de subred de la nube privada virtual

La subred de nube privada virtual que se usa para ejecutar cargas de trabajo o sesiones interactivas de Dataproc Serverless para Spark debe cumplir con los requisitos que se establecen en las siguientes sub secciones.

Requisitos del Acceso privado a Google

La subred de VPC de la región seleccionada para la carga de trabajo por lotes o la sesión interactiva de Dataproc sin servidores debe tener habilitado el Acceso privado a Google.

Acceso a red externa: Si tu carga de trabajo requiere acceso a una red externa o a Internet, puedes configurar Cloud NAT para permitir el tráfico saliente con IPs internas en tu red de VPC.

Requisito de conectividad de subred abierta

La subred de VPC de la región seleccionada para la carga de trabajo por lotes sin servidores de Dataproc o la sesión interactiva debe permitir la comunicación de subred interna en todos los puertos entre instancias de VM.

El siguiente comando de Google Cloud CLI conecta un firewall de red a una subred que permite comunicaciones de entrada internas entre VMs con todos los protocolos en todos los puertos:

gcloud compute firewall-rules create allow-internal-ingress \
    --network=NETWORK_NAME \
    --source-ranges=SUBNET_RANGES \
    --destination-ranges=SUBNET_RANGES \
    --direction=ingress \
    --action=allow \
    --rules=all

Notas:

  • SUBNET_RANGES: Consulta Permite conexiones de entrada internas entre VMs. La red de VPC default en un proyecto con la regla de firewall default-allow-internal, que permite la comunicación de entrada en todos los puertos (tcp:0-65535, udp:0-65535 y icmp protocols:ports), cumple con el requisito de conectividad de subred abierta. Sin embargo, esta regla también permite la entrada de cualquier instancia de VM en la red.

Redes de Dataproc Serverless y VPC-SC

Los Controles del servicio de VPC permiten a los administradores de red definir un perímetro de seguridad alrededor de los recursos de los servicios administrados por Google para controlar la comunicación entre esos servicios.

Ten en cuenta las siguientes estrategias cuando uses redes de VPC-SC con Dataproc sin servidores:

Para obtener más información, consulta Controles del servicio de VPC: Dataproc sin servidores para Spark.