Ce document décrit les conditions requises pour la configuration du réseau Dataproc Serverless for Spark.
Exigences concernant les sous-réseaux de cloud privé virtuel
Le sous-réseau de cloud privé virtuel utilisé pour exécuter Dataproc sans serveur pour les charges de travail Spark ou les sessions interactives doit répondre aux exigences décrites dans les sous-sections suivantes.
Exigence concernant l'accès privé à Google
L'accès privé à Google doit être activé sur le sous-réseau VPC de la région sélectionnée pour la session interactive ou la charge de travail par lot Dataproc sans serveur.
Accès réseau externe:si votre charge de travail nécessite un accès réseau ou Internet externe, vous pouvez configurer Cloud NAT pour autoriser le trafic sortant à l'aide d'adresses IP internes sur votre réseau VPC.
Exigence de connectivité de sous-réseau ouvert
Le sous-réseau VPC de la région sélectionnée pour la charge de travail par lot sans serveur Dataproc ou la session interactive doit autoriser la communication de sous-réseau interne sur tous les ports entre les instances de VM.
La commande Google Cloud CLI suivante associe un pare-feu réseau à un sous-réseau qui autorise les communications d'entrée internes entre les VM à l'aide de tous les protocoles sur tous les ports:
gcloud compute firewall-rules create allow-internal-ingress \ --network=NETWORK_NAME \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
Remarques :
SUBNET_RANGES: Consultez la section Autoriser les connexions d'entrée internes entre les VM. Le réseau VPC
default
d'un projet avec la règle de pare-feudefault-allow-internal
, qui autorise la communication entrante sur tous les ports (tcp:0-65535
,udp:0-65535
eticmp protocols:ports
), répond à l'exigence de connectivité de sous-réseau ouvert. Toutefois, cette règle autorise également l'entrée de n'importe quelle instance de VM sur le réseau.
Réseaux Dataproc sans serveur et VPC-SC
VPC Service Controls permet aux administrateurs réseau de définir un périmètre de sécurité autour des ressources des services gérés par Google afin de contrôler les communications avec et entre ces services.
Notez les stratégies suivantes lorsque vous utilisez des réseaux VPC-SC avec Dataproc sans serveur:
Créez une image de conteneur personnalisée qui préinstalle les dépendances en dehors du périmètre VPC-SC, puis envoyez une charge de travail par lot Spark qui utilise votre image de conteneur personnalisée.
Pour en savoir plus, consultez la page VPC Service Controls : Dataproc sans serveur pour Spark.