Como configurar o acesso à rede para o metastore do Dataproc

Nesta página, você encontra orientações detalhadas sobre como configurar o acesso à rede para suas instâncias do metastore do Dataproc. A configuração correta da rede é essencial para que os clusters do Dataproc e as cargas de trabalho do Dataproc sem servidor se comuniquem de forma segura e privada com o serviço gerenciado do Dataproc Metastore.

Principais conceitos de rede

As instâncias do metastore do Dataproc geralmente residem em uma rede de produtor de serviços gerenciada pelo Google e se comunicam com sua rede de nuvem privada virtual usando conectividade privada. É fundamental entender os seguintes conceitos para uma configuração bem-sucedida:

  • Nuvem privada virtual compartilhada:se os clusters do Dataproc ou as cargas de trabalho sem servidor do Dataproc estiverem em um projeto de serviço que usa uma rede de nuvem privada virtual compartilhada de um projeto host, verifique se as configurações de rede adequadas foram feitas no projeto host. Para mais informações, consulte Visão geral da nuvem privada virtual compartilhada.
  • Acesso privado do Google:as instâncias do metastore do Dataproc geralmente dependem do Acesso privado do Google para comunicação particular com sua rede de nuvem privada virtual. Isso permite que as instâncias de máquina virtual (VM) na sua nuvem privada virtual se conectem às APIs e aos serviços do Google usando endereços IP internos. Para mais informações, consulte Acesso privado do Google.
  • Peering de rede VPC:esse mecanismo permite a conectividade de IP particular entre duas redes de nuvem privada virtual, permitindo que os recursos em uma rede se comuniquem com os recursos na outra usando endereços IP internos. O Dataproc Metastore estabelece uma conexão gerenciada de peering de rede VPC com sua rede de nuvem privada virtual como parte da configuração. Para mais informações, consulte Peering de rede VPC.
  • Regras de firewall:são necessárias regras de firewall adequadas para permitir o tráfego entre as cargas de trabalho do Dataproc e a instância do metastore do Dataproc.
  • Resolução do Cloud DNS:verifique se a resolução de DNS está configurada corretamente na rede de nuvem privada virtual para resolver o URI do endpoint do Dataproc Metastore no endereço IP particular.

Etapas da configuração

Para verificar o acesso adequado à rede da sua instância do metastore do Dataproc, siga estas etapas:

1. Configurar o acesso particular a serviços

O metastore do Dataproc usa o acesso a serviços particulares para estabelecer uma conexão privada entre sua rede de nuvem privada virtual e a rede do produtor de serviço gerenciado pelo Google em que sua instância do metastore do Dataproc reside.

  • Verificar a conexão de acesso a serviços particulares:
    1. No console do Google Cloud , acesse Rede de nuvem privada virtual > Peering de rede VPC.
    2. Verifique se existe uma conexão de peering chamada servicenetworking-googleapis-com e se o estado dela é ACTIVE.
    3. Se essa conexão estiver faltando ou não estiver ativa, siga as instruções em Como configurar o acesso a serviços privados. Isso inclui a alocação de um intervalo de endereços IP para a rede do produtor de serviços.

2. Configurar regras de firewall

Verifique se as regras de firewall na sua rede de nuvem privada virtual (ou no projeto host da VPC compartilhada, se aplicável) permitem o tráfego necessário.

  • Regra de saída da carga de trabalho para o metastore:
    • Verifique se uma regra de firewall de saída permite o tráfego TCP de saída do cluster do Dataproc ou das cargas de trabalho sem servidor do Dataproc para o intervalo de endereços IP da instância do metastore do Dataproc na porta 9083. Essa é a porta padrão do metastore do Hive.
    • Se você estiver usando o acesso a serviços particulares, esse tráfego será encaminhado de forma privada.
  • Regras de entrada (menos comuns para cliente-Metastore):
    • Em geral, não é necessário configurar regras de entrada na nuvem privada virtual para o tráfego da instância do metastore do Dataproc para sua carga de trabalho, já que a comunicação normalmente se origina da carga de trabalho. No entanto, verifique se nenhuma regra de entrada excessivamente restritiva está bloqueando respostas necessárias por engano.

3. Verificar a resolução de DNS

Suas cargas de trabalho do Dataproc precisam resolver o URI do endpoint do metastore do Dataproc para o endereço IP particular dele.

  • Peering de DNS ou zonas particulares:se você estiver usando servidores DNS personalizados ou zonas particulares do Cloud DNS, verifique se as consultas DNS para o endpoint do Dataproc Metastore (por exemplo, your-metastore-endpoint.us-central1.dataproc.cloud.google.com) sejam encaminhados ou resolvidos corretamente para o intervalo de IP particular usado pelo acesso a serviços particulares.
  • Teste da resolução de DNS:em uma VM na mesma sub-rede da sua carga de trabalho do Dataproc, use nslookup ou dig para verificar se o endpoint do metastore do Dataproc é resolvido para um endereço IP particular.

Como resolver problemas de conectividade de rede

Se você encontrar problemas de conectividade depois de configurar o acesso à rede, siga estas etapas de solução de problemas:

A seguir