A sub-rede VPC usada para executar O Dataproc Serverless para cargas de trabalho do Spark precisa atender aos seguintes requisitos:
Conectividade de sub-rede aberta: a sub-rede precisa permitir a comunicação em todas as portas. O comando gcloud a seguir anexa um firewall de rede a uma que permite comunicações de entrada usando todos os protocolos em todas as portas:
gcloud compute firewall-rules create allow-internal-ingress \ --network=network-name \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
- SUBNET_RANGES: Ver
Permitir conexões de entrada internas entre VMs.
A rede VPC
default
em um projeto com a regra de firewalldefault-allow-internal
, que permite a comunicação de entrada em todas as portas (tcp:0-65535, udp:0-65535 e protocolos icmp:portas), atende ao requisito de conectividade de sub-rede aberta. No entanto, também permite entrada por qualquer instância de VM na rede.
- SUBNET_RANGES: Ver
Permitir conexões de entrada internas entre VMs.
A rede VPC
Acesso privado do Google:a sub-rede precisa ter Acesso privado do Google ativado.
- Acesso à rede externa. Se a carga de trabalho exigir acesso à rede externa ou à Internet, configure o Cloud NAT para permitir o tráfego de saída usando IPs internos na rede VPC.
Dataproc sem servidor e redes VPC-SC
Com o VPC Service Controls, os administradores podem definir um perímetro de segurança em torno dos recursos dos serviços gerenciados pelo Google para controlar a comunicação entre esses serviços.
Observe as seguintes limitações e estratégias ao usar redes VPC-SC com Dataproc sem servidor:
Para instalar dependências fora do perímetro da VPC-SC, crie uma imagem de contêiner personalizada que pré-instale as dependências e, em seguida, envie uma carga de trabalho em lote do Spark que use a imagem de contêiner personalizada.