Questo documento descrive i requisiti necessari per la configurazione della rete di Dataproc Serverless per Spark.
Requisiti della sottorete Virtual Private Cloud
La subnet VPC utilizzata per eseguire i carichi di lavoro Dataproc Serverless per Spark deve soddisfare i seguenti requisiti:
Connettività aperta della subnet: la subnet deve consentire la comunicazione su tutte le porte. Il seguente comando Google Cloud CLI collega un firewall di rete a una sottorete che consente le comunicazioni in entrata utilizzando tutti i protocolli su tutte le porte:
gcloud compute firewall-rules create allow-internal-ingress \ --network=network-name \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
- SUBNET_RANGES: Consulta
Consentire le connessioni in entrata interne tra le VM.
La rete VPC
default
in un progetto con la regola firewalldefault-allow-internal
, che consente la comunicazione in entrata su tutte le porte (tcp:0-65535, udp:0-65535 e protocolli icmp:port), soddisfa il requisito di connettività della sottorete aperta. Tuttavia, consente anche l'ingresso di qualsiasi istanza VM sulla rete.
- SUBNET_RANGES: Consulta
Consentire le connessioni in entrata interne tra le VM.
La rete VPC
Accesso privato Google:la subnet deve avere attivato l'accesso privato Google.
- Accesso alla rete esterna. Se il tuo workload richiede accesso a internet o a una rete esterna, puoi configurare Cloud NAT per consentire il traffico in uscita utilizzando gli IP interni sulla rete VPC.
Reti Dataproc Serverless e VPC-SC
Con Controlli di servizio VPC, gli amministratori possono definire un perimetro di sicurezza intorno alle risorse dei servizi gestiti da Google per controllare le comunicazioni con quei servizi.
Tieni presente le seguenti limitazioni e strategie quando utilizzi le reti VPC-SC con Dataproc Serverless:
Per installare le dipendenze al di fuori del perimetro del VPC-SC, crea un'immagine container personalizzata che preinstalla le dipendenze, quindi invia un carico di lavoro batch Spark che utilizza l'immagine container personalizzata.