Configuration du réseau Dataproc sans serveur pour Spark

Le sous-réseau du VPC utilisé pour exécuter les charges de travail Dataproc sans serveur pour Spark doit répondre aux exigences suivantes :

  • Connectivité de sous-réseau ouverte : le sous-réseau doit autoriser la communication de sous-réseau sur tous les ports. La commande gcloud suivante associe un pare-feu de réseau à qui autorise les communications d'entrée à l'aide de tous les protocoles sur tous les ports:

    gcloud compute firewall-rules create allow-internal-ingress \
        --network=network-name \
        --source-ranges=SUBNET_RANGES \
        --destination-ranges=SUBNET_RANGES \
        --direction=ingress \
        --action=allow \
        --rules=all
    

    • SUBNET_RANGES: Voir Autorisez les connexions d'entrée internes entre les VM. Le réseau VPC default d'un projet avec la règle de pare-feu default-allow-internal, qui autorise la communication entrante sur tous les ports (tcp:0-65535, udp:0-65535 et protocoles icmp:ports), répond à l'exigence de connectivité de sous-réseau ouverte. Toutefois, il autorise également l'entrée de n'importe quelle instance de VM sur le réseau.
  • Accès privé à Google : l'accès privé à Google doit être activé sur le sous-réseau.

    • Accès au réseau externe. Si votre charge de travail nécessite un accès réseau ou Internet externe, vous pouvez configurer Cloud NAT pour autoriser le trafic sortant à l'aide d'adresses IP internes sur votre réseau VPC.

Réseaux Dataproc sans serveur et VPC-SC

VPC Service Controls permet aux administrateurs de définir un périmètre de sécurité autour des ressources des services gérés par Google afin de contrôler les communications avec et entre ces services.

Notez les limites et stratégies suivantes lorsque vous utilisez des réseaux VPC-SC avec Dataproc sans serveur: