En este documento, se describen los requisitos necesarios para la configuración de la red de Dataproc Serverless para Spark.
Requisitos de subred de la nube privada virtual
La subred de nube privada virtual que se usa para ejecutar cargas de trabajo o sesiones interactivas de Dataproc Serverless para Spark debe cumplir con los requisitos que se establecen en las siguientes sub secciones.
Requisitos del Acceso privado a Google
La subred de VPC de la región seleccionada para la carga de trabajo por lotes o la sesión interactiva de Dataproc sin servidores debe tener habilitado el Acceso privado a Google.
Acceso a red externa: Si tu carga de trabajo requiere acceso a una red externa o a Internet, puedes configurar Cloud NAT para permitir el tráfico saliente con IPs internas en tu red de VPC.
Requisito de conectividad de subred abierta
La subred de VPC de la región seleccionada para la carga de trabajo por lotes o la sesión interactiva de Dataproc sin servidores debe permitir la comunicación de subred interna en todos los puertos entre instancias de VM.
El siguiente comando de Google Cloud CLI conecta un firewall de red a una subred que permite comunicaciones de entrada internas entre VMs con todos los protocolos en todos los puertos:
gcloud compute firewall-rules create allow-internal-ingress \ --network=NETWORK_NAME \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
Notas:
SUBNET_RANGES: Consulta Permite conexiones de entrada internas entre VMs. La red de VPC
default
en un proyecto con la regla de firewalldefault-allow-internal
, que permite la comunicación de entrada en todos los puertos (tcp:0-65535
,udp:0-65535
yicmp protocols:ports
), cumple con el requisito de conectividad de subred abierta. Sin embargo, esta regla también permite la entrada de cualquier instancia de VM en la red.
Redes de Dataproc Serverless y VPC-SC
Los Controles del servicio de VPC permiten a los administradores de red definir un perímetro de seguridad alrededor de los recursos de los servicios administrados por Google para controlar la comunicación entre esos servicios.
Ten en cuenta las siguientes estrategias cuando uses redes de VPC-SC con Dataproc sin servidores:
Crea una imagen de contenedor personalizada que preinstale las dependencias fuera del perímetro de VPC-SC y, luego, envía una carga de trabajo por lotes de Spark que use tu imagen de contenedor personalizada.
Para obtener más información, consulta Controles del servicio de VPC: Dataproc sin servidores para Spark.