Visão geral da rede do Dataproc Metastore

Neste documento, apresentamos uma visão geral das configurações de rede que podem ser usadas para configurar um serviço Metastore do Dataproc.

Referência rápida com tópicos de rede

Configurações de rede Observações
Configurações de rede padrão
Redes VPC Por padrão, os serviços do Dataproc Metastore usam redes VPC para se conectar ao Google Cloud.

Depois que a rede VPC é criada, o metastore do Dataproc também configura automaticamente o Peering de rede VPC para seu serviço.
Sub-redes VPC Opcionalmente, crie serviços do Dataproc Metastore com uma sub-rede VPC usando o Private Service Connect. Essa é uma alternativa ao uso de redes VPC.
Outras configurações de rede
Redes VPC compartilhadas Também é possível criar serviços do Dataproc Metastore em uma rede VPC compartilhada.
Rede no local É possível se conectar a um serviço Metastore do Dataproc com um ambiente local usando o Cloud VPN ou o Cloud Interconnect.
VPC Service Controls Também é possível criar serviços do Dataproc Metastore com o VPC Service Controls.
Regras de firewall Em ambientes particulares ou não padrão com uma pegada de segurança estabelecida, pode ser necessário criar suas próprias regras de firewall.

Configurações de rede padrão

Na seção a seguir, descrevemos as configurações de rede padrão usadas pelo Metastore do Dataproc: redes VPC e peering de rede VPC.

Redes VPC

Por padrão, os serviços do Dataproc Metastore usam redes VPC para se conectar ao Google Cloud. Ela é uma versão virtual de uma rede física implementada na rede de produção do Google. Quando você cria um metastore do Dataproc, o serviço cria automaticamente a rede VPC para você.

Se você não alterar nenhuma configuração ao criar o serviço, o metastore do Dataproc usará a rede VPC default. Com essa configuração, a rede VPC usada com o serviço Metastore do Dataproc pode pertencer ao mesmo projeto do Google Cloud ou a um projeto diferente. Essa configuração também permite expor seu serviço em uma única rede VPC ou torná-lo acessível a partir de várias redes VPC (por meio do uso de sub-redes).

O metastore do Dataproc requer o seguinte por região para cada rede VPC:

Peering de rede VPC

Depois que a rede VPC é criada, o metastore do Dataproc também configura automaticamente o peering de rede VPC para o serviço. A VPC fornece ao seu serviço acesso aos protocolos de endpoint do Metastore do Dataproc. Depois de criar o serviço, é possível ver o peering de rede VPC subjacente na página Peering de rede VPC no console do Google Cloud.

O peering de rede VPC não é transitivo. Isso significa que apenas redes com peering direto podem se comunicar entre si. Por exemplo, considere o seguinte cenário:

Você tem as redes VPC N1, N2 e N3 a seguir.

  • A rede VPC N1 está pareada com a N2 e a N3.
  • Rede VPC N2 e N3 não estão diretamente conectadas.

O que isso significa?

Isso significa que, pelo peering de rede VPC, a rede VPC N2 não pode se comunicar com a rede VPC N3. Isso afeta as conexões do Dataproc Metastore das seguintes maneiras:

  • As máquinas virtuais que estão em redes em peering com a rede de projetos do Dataproc Metastore não conseguem alcançar o Metastore do Dataproc.
  • Apenas hosts na rede VPC podem acessar um serviço Metastore do Dataproc.

Considerações sobre segurança no peering de rede VPC

  • O tráfego por peering de rede VPC é fornecido com um determinado nível de criptografia. Para mais informações, consulte Criptografia e autenticação de rede virtual do Google Cloud.

  • Criar uma rede VPC para cada serviço com um endereço IP interno fornece um isolamento de rede melhor do que colocar todos os serviços na rede VPC default.

Sub-redes VPC

O Private Service Connect (PSC) permite configurar uma conexão particular com os metadados do Dataproc Metastore em redes VPC. Com o PSC, é possível criar um serviço sem peering de VPC. Isso permite usar seus próprios endereços IP internos para acessar o Dataproc Metastore, sem sair das redes VPC ou usar endereços IP externo.

Para configurar o Private Service Connect ao criar um serviço, consulte Private Service Connect com o metastore do Dataproc.

Endereços IP

Para se conectar a uma rede e ajudar a proteger seus metadados, os serviços do Metastore do Dataproc usam apenas endereços IP internos. Isso significa que os endereços IP públicos não são expostos ou estão disponíveis para fins de rede.

Ao usar um endereço IP interno, o metastore do Dataproc só pode se conectar a máquinas virtuais (VMs) existentes em redes de nuvem privada virtual (VPC) especificadas ou em um ambiente local.

As conexões com um serviço do Dataproc Metastore que usam um endereço IP interno usam intervalos de endereços RFC 1918. O uso desses intervalos significa que o metastore do Dataproc aloca um intervalo /17 e um intervalo /20 do espaço de endereço de cada região. Por exemplo, colocar serviços do Metastore do Dataproc em duas regiões exige que o intervalo de endereços IP alocado contenha o seguinte:

  • Pelo menos dois blocos de endereço não utilizados de tamanho /17.
  • Pelo menos dois blocos de endereço não utilizados de tamanho /20.

Se os blocos de endereços RFC 1918 não forem encontrados, o metastore do Dataproc encontrará blocos de endereços não RFC 1918 adequados. A alocação de blocos não RFC 1918 não considera se esses endereços estão em uso na sua rede VPC ou no local.

Outras configurações de rede

Se você precisar de configurações de rede diferentes, use as opções a seguir com o serviço Metastore do Dataproc.

Rede VPC compartilhada

É possível criar serviços do Dataproc Metastore em uma rede VPC compartilhada. Uma VPC compartilhada permite conectar recursos do Metastore do Dataproc de vários projetos a uma rede VPC (VPC) comum.

Para configurar uma VPC compartilhada ao criar um serviço, consulte Criar um serviço Metastore do Dataproc.

Rede no local

É possível se conectar a um serviço Metastore do Dataproc com um ambiente local usando o Cloud VPN ou o Cloud Interconnect.

VPC Service Controls

Os VPC Service Controls melhoram sua capacidade de reduzir o risco de exfiltração de dados. Com o VPC Service Controls, você cria perímetros em torno do serviço Metastore do Dataproc. O VPC Service Controls restringe o acesso externo a recursos dentro do perímetro. Apenas clientes e recursos dentro do perímetro podem interagir entre si.

Para usar o VPC Service Controls com o metastore do Dataproc, consulte VPC Service Controls com o metastore do Dataproc. Analise também as limitações do Metastore do Dataproc ao usar VPC Service Controls.

Regras de firewall para o metastore do Dataproc

Em ambientes não padrão ou particulares com um espaço de segurança estabelecido, talvez seja necessário criar suas próprias regras de firewall. Caso contrário, não crie uma regra de firewall que bloqueie o intervalo ou a porta de endereços IP dos serviços do metastore do Dataproc.

Quando você cria um serviço Metastore do Dataproc, é possível aceitar a rede padrão do serviço. A rede padrão garante acesso total de rede IP às VMs.

Para mais informações gerais sobre regras de firewall, consulte Regras de firewall de VPC e Como usar regras de firewall de VPC.

Criar uma regra de firewall para uma rede personalizada

Ao usar uma rede personalizada, verifique se a regra de firewall permite o tráfego de origem e destino do endpoint do metastore do Dataproc. Para permitir explicitamente o tráfego do metastore do Dataproc, execute os seguintes comandos gcloud:

gcloud compute firewall-rules create dpms-allow-egress-DPMS_NETWORK-REGION --allow tcp --destination-ranges DPMS_NET_PREFIX/17 --network DPMS_NETWORK --direction OUT
gcloud compute firewall-rules create dpms-allow-ingress-DPMS_NETWORK-REGION --allow tcp,udp --source-ranges DPMS_NET_PREFIX/17 --network DPMS_NETWORK

Para DPMS_NET_PREFIX, aplique uma máscara de sub-rede /17 ao IP de serviço do metastore do Dataproc. É possível encontrar as informações de endereço IP do metastore do Dataproc na configuração endpointUri na página Detalhes do serviço.

Considerações

As redes têm uma regra implícita de permissão de saída que normalmente permite o acesso da sua rede ao metastore do Dataproc. Se você criar regras de negação de saída que substituam a regra implícita de permissão de saída, crie uma regra de saída de permissão com maior prioridade para permitir a saída para o IP do metastore do Dataproc.

Alguns recursos, como o Kerberos, exigem que o Metastore do Dataproc inicie conexões com hosts na rede do projeto. Todas as redes têm uma regra implícita de negação de entrada que bloqueia essas conexões e impede que os recursos funcionem. Crie uma regra de firewall que permita a entrada TCP e UDP em todas as portas do bloco de IP /17 que contém o IP do metastore do Dataproc.

Roteamento personalizado

Rotas personalizadas são para sub-redes que usam endereços IP públicos (PUPI, na sigla em inglês) utilizados de modo privado. As rotas personalizadas permitem que sua rede VPC se conecte a uma rede com peering. As rotas personalizadas só podem ser recebidas quando a rede VPC as importa e a rede com peering as exporta explicitamente. As rotas personalizadas podem ser estáticas ou dinâmicas.

O compartilhamento de rotas personalizadas com redes VPC com peering permite que as redes "aprendam" rotas diretamente nas redes com peering. Isso significa que, quando uma rota personalizada em uma rede com peering é atualizada, a rede VPC aprende e implementa automaticamente a rota personalizada sem exigir nenhuma outra ação da sua parte.

Para mais informações sobre o roteamento personalizado, consulte configuração de rede.

Exemplo de rede do Dataproc Metastore

No exemplo a seguir, o Google aloca os intervalos de endereços 10.100.0.0/17 e 10.200.0.0/20 na rede VPC do cliente para serviços do Google e usa esses intervalos em uma rede VPC com peering.

INSIRA O TEXTO ALTERNATIVO AQUI
Figura 1. Configuração de rede VPC do Dataproc Metastore

Descrição do exemplo de rede:

  • No lado dos serviços do Google do peering de VPC, o Google cria um projeto para o cliente. O projeto é isolado, o que significa que nenhum outro cliente o compartilha e o cliente é cobrado apenas pelos recursos provisionados pelo cliente.
  • Ao criar o primeiro serviço Metastore do Dataproc em uma região, ele aloca um intervalo /17 e um intervalo /20 na rede do cliente para todo o uso futuro de serviços do Dataproc Metastore nessa região e rede. O metastore do Dataproc subdivide ainda mais esses intervalos para criar sub-redes e intervalos de endereços no projeto de produtor de serviços.
  • Os serviços de VM na rede do cliente poderão acessar os recursos do serviço do Metastore do Dataproc em qualquer região se o serviço do Google Cloud for compatível. Alguns serviços do Google Cloud podem não oferecer suporte à comunicação entre regiões.
  • Quando uma instância de VM se comunica com recursos de uma região diferente, os custos de saída para tráfego entre regiões continuam sendo aplicáveis.
  • O Google atribui ao serviço do metastore do Dataproc o endereço IP 10.100.0.100. Na rede VPC do cliente, as solicitações com um destino de 10.100.0.100 são roteadas por meio do peering de VPC para a rede do fornecedor de serviços. Quando chegam à rede, essa rede contém rotas que direcionam a solicitação para o recurso correto.
  • O tráfego entre redes VPC é transmitido internamente na rede do Google, e não pela Internet pública.

A seguir