La subred de VPC que se usa para ejecutar cargas de trabajo de Dataproc Serverless para Spark debe cumplir con los siguientes requisitos:
Conectividad de subred abierta: La subred debe permitir la comunicación de subred. en todos los puertos. El siguiente comando de gcloud adjunta un firewall de red a una subred que permite las comunicaciones de entrada con todos los protocolos en todos los puertos:
gcloud compute firewall-rules create allow-internal-ingress \ --network=network-name \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
- SUBNET_RANGES: Ver
Permitir conexiones de entrada internas entre VMs.
La red de VPC
default
en un proyecto con la regla de firewalldefault-allow-internal
, que permite la comunicación de entrada en todos los puertos (protocolos tcp:0-65535, icmp y udp:0-65535) cumpla con el requisito de open-subnet-connectivity. Sin embargo, también permite la entrada de cualquier instancia de VM en la red.
- SUBNET_RANGES: Ver
Permitir conexiones de entrada internas entre VMs.
La red de VPC
Acceso privado a Google: La subred debe tener habilitado el Acceso privado a Google.
- Acceso externo a la red. Si tu carga de trabajo requiere una red externa o Internet de acceso, puedes configurar Cloud NAT para permitir el tráfico saliente con IP internas en tu red de VPC.
Redes de Dataproc Serverless y VPC-SC
Los Controles del servicio de VPC permiten a los administradores definir un perímetro de seguridad alrededor de los recursos de los servicios administrados por Google para controlar la comunicación entre esos servicios.
Ten en cuenta las siguientes limitaciones y estrategias cuando uses redes de VPC-SC con Dataproc sin servidores:
Para instalar dependencias fuera del perímetro de VPC-SC, crea una imagen de contenedor personalizada que preinstale las dependencias y, luego, envía una carga de trabajo por lotes de Spark que use tu imagen de contenedor personalizada.