Le sous-réseau VPC utilisé pour exécuter Dataproc sans serveur pour les charges de travail Spark doit répondre aux exigences suivantes:
Connectivité du sous-réseau ouverte:le sous-réseau doit autoriser la communication de sous-réseau sur tous les ports. La commande gcloud suivante associe un pare-feu de réseau à un sous-réseau qui autorise les communications d'entrée via tous les protocoles et sur tous les ports:
gcloud compute firewall-rules create allow-internal-ingress \ --network=network-name \ --source-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
- SUBNET_RANGES: Consultez la section Autoriser les connexions d'entrée internes entre les VM.
Le réseau VPC
default
dans un projet avec la règle de pare-feudefault-allow-internal
, qui autorise la communication d'entrée sur tous les ports (tcp:0-65535, udp:0-65535 et icmpprotocol:ports), répond aux exigences de connectivité de sous-réseau ouvert. Cependant, il autorise également le trafic entrant par n'importe quelle instance de VM du réseau.
- SUBNET_RANGES: Consultez la section Autoriser les connexions d'entrée internes entre les VM.
Le réseau VPC
Accès privé à Google:l'accès privé à Google doit être activé sur le sous-réseau.
- Accès au réseau externe. Si votre charge de travail nécessite un réseau externe ou un accès Internet, vous pouvez configurer Cloud NAT pour autoriser le trafic sortant à l'aide d'adresses IP internes sur votre réseau VPC.
Réseaux sans serveur et VPC-SC Dataproc
VPC Service Controls permet aux administrateurs de définir un périmètre de sécurité autour des ressources des services gérés par Google afin de contrôler les communications avec et entre ces services.
Notez les limites et stratégies suivantes lors de l'utilisation de réseaux VPC-SC avec Dataproc sans serveur:
Pour installer des dépendances en dehors du périmètre VPC-SC, créez une image de conteneur personnalisée qui préinstalle les dépendances, puis envoyez une charge de travail par lot Spark qui utilise votre image de conteneur personnalisée.