Dataproc Serverless for Spark-Netzwerkkonfiguration

Das VPC-Subnetzwerk, das zum Ausführen von serverlosen Spark-Arbeitslasten verwendet wird, muss die folgenden Anforderungen erfüllen:

  • Offene Subnetzverbindung: Das Subnetz muss die Subnetzkommunikation an allen Ports zulassen. Mit dem folgenden gcloud-Befehl wird eine Netzwerkfirewall an ein Subnetz angehängt, das die eingehende Kommunikation über alle Protokolle an allen Ports zulässt:

    gcloud compute firewall-rules create allow-internal-ingress \
    --network="network-name" \
    --source-ranges="subnetwork internal-IP ranges" \
    --direction="ingress" \
    --action="allow" \
    --rules="all"
    
    Hinweis: Das VPC-Netzwerk default in einem Projekt mit der Firewallregel default-allow-internal, das die Kommunikation über eingehenden Traffic an allen Ports ermöglicht (tcp:0-65535, udp:0-65535, und ICMP-Protokolle:Ports) erfüllt. Er lässt jedoch auch eingehenden Traffic von jeder VM-Instanz im Netzwerk zu.

  • Privater Google-Zugriff. Für das Subnetz muss privater Google-Zugriff aktiviert sein.

    • Externer Netzwerkzugriff. Treiber und Executors haben interne IP-Adressen. Sie können Cloud NAT so einrichten, dass ausgehender Traffic mithilfe interner IP-Adressen in Ihrem VPC-Netzwerk zugelassen wird.