Configuración de la red de Dataproc Serverless para Spark

La subred de VPC que se usa para ejecutar cargas de trabajo de Dataproc Serverless para Spark debe cumplir con los siguientes requisitos:

  • Conectividad de subred abierta: La subred debe permitir la comunicación de subred. en todos los puertos. El siguiente comando de gcloud adjunta un firewall de red a una subred que permite las comunicaciones de entrada con todos los protocolos en todos los puertos:

    gcloud compute firewall-rules create allow-internal-ingress \
        --network=network-name \
        --source-ranges=SUBNET_RANGES \
        --destination-ranges=SUBNET_RANGES \
        --direction=ingress \
        --action=allow \
        --rules=all
    

    • SUBNET_RANGES: Ver Permitir conexiones de entrada internas entre VMs. La red de VPC default en un proyecto con la regla de firewall default-allow-internal, que permite la comunicación de entrada en todos los puertos (protocolos tcp:0-65535, icmp y udp:0-65535) cumpla con el requisito de open-subnet-connectivity. Sin embargo, también permite la entrada de cualquier instancia de VM en la red.
  • Acceso privado a Google: La subred debe tener habilitado el Acceso privado a Google.

    • Acceso externo a la red. Si tu carga de trabajo requiere una red externa o Internet de acceso, puedes configurar Cloud NAT para permitir el tráfico saliente con IP internas en tu red de VPC.

Redes de Dataproc Serverless y VPC-SC

Los Controles del servicio de VPC permiten a los administradores definir un perímetro de seguridad alrededor de los recursos de los servicios administrados por Google para controlar la comunicación entre esos servicios.

Ten en cuenta las siguientes limitaciones y estrategias cuando uses redes de VPC-SC con Dataproc sin servidores: