En este documento, se describen los requisitos necesarios para la configuración de la red de Dataproc Serverless para Spark.
Requisitos de subred de la nube privada virtual
La subred de VPC que se usa para ejecutar cargas de trabajo de Dataproc Serverless para Spark debe cumplir con los siguientes requisitos:
Conectividad de subred abierta: La subred debe permitir la comunicación de subred en todos los puertos. El siguiente comando de Google Cloud CLI conecta un firewall de red a una subred que permite comunicaciones de entrada con todos los protocolos en todos los puertos:
gcloud compute firewall-rules create allow-internal-ingress \ --network=network-name \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
- SUBNET_RANGES: Consulta Permite conexiones de entrada internas entre VMs.
La red de VPC
default
en un proyecto con la regla de firewalldefault-allow-internal
, que permite la comunicación de entrada en todos los puertos (tcp:0-65535, udp:0-65535 y protocolos icmp:puertos), cumple con el requisito de conectividad de subred abierta. Sin embargo, también permite la entrada de cualquier instancia de VM en la red.
- SUBNET_RANGES: Consulta Permite conexiones de entrada internas entre VMs.
La red de VPC
Acceso privado a Google: La subred debe tener habilitado el Acceso privado a Google.
- Acceso a la red externa Si tu carga de trabajo requiere acceso a Internet o a una red externa, puedes configurar Cloud NAT para permitir el tráfico saliente con IPs internas en tu red de VPC.
Redes de Dataproc Serverless y VPC-SC
Los Controles del servicio de VPC permiten a los administradores definir un perímetro de seguridad alrededor de los recursos de los servicios administrados por Google para controlar la comunicación entre esos servicios.
Ten en cuenta las siguientes limitaciones y estrategias cuando uses redes de VPC-SC con Dataproc sin servidor:
Para instalar dependencias fuera del perímetro de VPC-SC, crea una imagen de contenedor personalizada que preinstale las dependencias y, luego, envía una carga de trabajo por lotes de Spark que use tu imagen de contenedor personalizada.