La subnet VPC utilizzata per eseguire Dataproc Serverless per i carichi di lavoro Spark deve soddisfare i seguenti requisiti:
Apri la connettività della subnet: la subnet deve consentire la comunicazione con la subnet su tutte le porte. Il seguente comando gcloud collega un firewall di rete a un che consente le comunicazioni in entrata utilizzando tutti i protocolli su tutte le porte:
gcloud compute firewall-rules create allow-internal-ingress \ --network=network-name \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
- SUBNET_RANGES: Consulta
Consentire le connessioni in entrata interne tra le VM.
La rete VPC
default
in un progetto con la regola firewalldefault-allow-internal
, che permette la comunicazione in entrata su tutte le porte (tcp:0-65535, udp:0-65535 e protocolli icmp:porte), soddisfa il requisito di connettività con subnet aperta. Tuttavia, consente anche l'ingresso di qualsiasi istanza VM sulla rete.
- SUBNET_RANGES: Consulta
Consentire le connessioni in entrata interne tra le VM.
La rete VPC
Accesso privato Google:la subnet deve avere Accesso privato Google abilitato.
- Accesso alla rete esterna. Se il carico di lavoro richiede una rete esterna o internet puoi configurare Cloud NAT per consentire il traffico in uscita utilizzando IP interni sulla tua rete VPC.
Reti Dataproc Serverless e VPC-SC
Con Controlli di servizio VPC, gli amministratori possono definire un perimetro di sicurezza intorno alle risorse dei servizi gestiti da Google controllare le comunicazioni con e tra tali servizi.
Tieni presente le seguenti limitazioni e strategie quando utilizzi le reti VPC-SC con Dataproc Serverless:
Per installare le dipendenze al di fuori del perimetro del VPC-SC, crea un'immagine container personalizzata che preinstalla le dipendenze, quindi invia un carico di lavoro batch Spark che utilizza l'immagine container personalizzata.