La subnet VPC utilizzata per eseguire Dataproc Serverless per i carichi di lavoro Spark deve soddisfare i seguenti requisiti:
Apri connettività delle subnet: la subnet deve consentire la comunicazione della subnet su tutte le porte. Il seguente comando gcloud collega un firewall di rete a una subnet che consente le comunicazioni in entrata utilizzando tutti i protocolli su tutte le porte:
gcloud compute firewall-rules create allow-internal-ingress \ --network=network-name \ --source-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
- SUBNET_RANGES: Consulta
Consentire connessioni in entrata interne tra le VM.
La rete VPC
default
in un progetto con la regola firewalldefault-allow-internal
, che consente la comunicazione in entrata su tutte le porte (tcp:0-65535, udp:0-65535 e protocolli icmp:ports), soddisfa il requisito di connettività a subnet aperta. Tuttavia, consente anche il traffico in entrata da qualsiasi istanza VM sulla rete.
- SUBNET_RANGES: Consulta
Consentire connessioni in entrata interne tra le VM.
La rete VPC
Accesso privato Google:nella subnet deve essere abilitato l'accesso privato Google.
- Accesso alla rete esterna. Se il carico di lavoro richiede l'accesso alla rete esterna o a internet, puoi configurare Cloud NAT per consentire il traffico in uscita utilizzando IP interni sulla tua rete VPC.
Reti Dataproc serverless e VPC-SC
Con Controlli di servizio VPC, gli amministratori possono definire un perimetro di sicurezza intorno alle risorse dei servizi gestiti da Google per controllare le comunicazioni con quei servizi.
Tieni presente le seguenti limitazioni e strategie quando utilizzi reti VPC-SC con Dataproc Serverless:
Per installare le dipendenze all'esterno del perimetro VPC-SC, crea un'immagine container personalizzata che preinstalla le dipendenze, quindi invia un carico di lavoro batch Spark che utilizza l'immagine del container personalizzata.