Nesta página, você encontra orientações detalhadas sobre como configurar o acesso à rede para suas instâncias do metastore do Dataproc. A configuração correta da rede é essencial para que os clusters do Dataproc e as cargas de trabalho do Dataproc sem servidor se comuniquem de forma segura e privada com o serviço gerenciado do Dataproc Metastore.
Principais conceitos de rede
As instâncias do metastore do Dataproc geralmente residem em uma rede de produtor de serviços gerenciada pelo Google e se comunicam com sua rede de nuvem privada virtual usando conectividade privada. É fundamental entender os seguintes conceitos para uma configuração bem-sucedida:
- Nuvem privada virtual compartilhada:se os clusters do Dataproc ou as cargas de trabalho sem servidor do Dataproc estiverem em um projeto de serviço que usa uma rede de nuvem privada virtual compartilhada de um projeto host, verifique se as configurações de rede adequadas foram feitas no projeto host. Para mais informações, consulte Visão geral da nuvem privada virtual compartilhada.
- Acesso privado do Google:as instâncias do metastore do Dataproc geralmente dependem do Acesso privado do Google para comunicação particular com sua rede de nuvem privada virtual. Isso permite que as instâncias de máquina virtual (VM) na sua nuvem privada virtual se conectem às APIs e aos serviços do Google usando endereços IP internos. Para mais informações, consulte Acesso privado do Google.
- Peering de rede VPC:esse mecanismo permite a conectividade de IP particular entre duas redes de nuvem privada virtual, permitindo que os recursos em uma rede se comuniquem com os recursos na outra usando endereços IP internos. O Dataproc Metastore estabelece uma conexão gerenciada de peering de rede VPC com sua rede de nuvem privada virtual como parte da configuração. Para mais informações, consulte Peering de rede VPC.
- Regras de firewall:são necessárias regras de firewall adequadas para permitir o tráfego entre as cargas de trabalho do Dataproc e a instância do metastore do Dataproc.
- Resolução do Cloud DNS:verifique se a resolução de DNS está configurada corretamente na rede de nuvem privada virtual para resolver o URI do endpoint do Dataproc Metastore no endereço IP particular.
Etapas da configuração
Para verificar o acesso adequado à rede da sua instância do metastore do Dataproc, siga estas etapas:
1. Configurar o acesso particular a serviços
O metastore do Dataproc usa o acesso a serviços particulares para estabelecer uma conexão privada entre sua rede de nuvem privada virtual e a rede do produtor de serviço gerenciado pelo Google em que sua instância do metastore do Dataproc reside.
- Verificar a conexão de acesso a serviços particulares:
- No console do Google Cloud , acesse Rede de nuvem privada virtual > Peering de rede VPC.
- Verifique se existe uma conexão de peering chamada
servicenetworking-googleapis-com
e se o estado dela éACTIVE
. - Se essa conexão estiver faltando ou não estiver ativa, siga as instruções em Como configurar o acesso a serviços privados. Isso inclui a alocação de um intervalo de endereços IP para a rede do produtor de serviços.
2. Configurar regras de firewall
Verifique se as regras de firewall na sua rede de nuvem privada virtual (ou no projeto host da VPC compartilhada, se aplicável) permitem o tráfego necessário.
- Regra de saída da carga de trabalho para o metastore:
- Verifique se uma regra de firewall de saída permite o tráfego TCP de saída do cluster do Dataproc ou das cargas de trabalho sem servidor do Dataproc para o intervalo de endereços IP da instância do metastore do Dataproc na porta
9083
. Essa é a porta padrão do metastore do Hive. - Se você estiver usando o acesso a serviços particulares, esse tráfego será encaminhado de forma privada.
- Verifique se uma regra de firewall de saída permite o tráfego TCP de saída do cluster do Dataproc ou das cargas de trabalho sem servidor do Dataproc para o intervalo de endereços IP da instância do metastore do Dataproc na porta
- Regras de entrada (menos comuns para cliente-Metastore):
- Em geral, não é necessário configurar regras de entrada na nuvem privada virtual para o tráfego da instância do metastore do Dataproc para sua carga de trabalho, já que a comunicação normalmente se origina da carga de trabalho. No entanto, verifique se nenhuma regra de entrada excessivamente restritiva está bloqueando respostas necessárias por engano.
3. Verificar a resolução de DNS
Suas cargas de trabalho do Dataproc precisam resolver o URI do endpoint do metastore do Dataproc para o endereço IP particular dele.
- Peering de DNS ou zonas particulares:se você estiver usando servidores DNS personalizados ou zonas particulares do Cloud DNS, verifique se as consultas DNS para o endpoint do Dataproc Metastore (por exemplo,
your-metastore-endpoint.us-central1.dataproc.cloud.google.com
) sejam encaminhados ou resolvidos corretamente para o intervalo de IP particular usado pelo acesso a serviços particulares. - Teste da resolução de DNS:em uma VM na mesma sub-rede da sua carga de trabalho do Dataproc, use
nslookup
oudig
para verificar se o endpoint do metastore do Dataproc é resolvido para um endereço IP particular.
Como resolver problemas de conectividade de rede
Se você encontrar problemas de conectividade depois de configurar o acesso à rede, siga estas etapas de solução de problemas:
- Analise o status do metastore do Dataproc:verifique se a instância do metastore do Dataproc está no estado
HEALTHY
no consoleGoogle Cloud . - Verifique o Cloud Logging:examine o Cloud Logging na sua instância do metastore do Dataproc e nas cargas de trabalho relacionadas do Dataproc em busca de mensagens de erro relacionadas à rede ou tempos limite de conexão.
- Use os Testes de conectividade do Network Intelligence Center:use os Testes de conectividade do Google Cloudpara diagnosticar o caminho de rede das VMs da carga de trabalho do Dataproc até o endpoint do metastore do Dataproc.
- Consulte Solução de problemas gerais:para diagnósticos de rede mais detalhados, consulte:
A seguir
- Saiba mais sobre o Metastore do Dataproc.
- Consulte as opções de rede do Dataproc.
- Entenda o peering de rede VPC.