Práticas recomendadas de segurança do Dataproc

Proteger o ambiente do Dataproc é crucial para proteger dados sensíveis e impedir acessos não autorizados. Neste documento, descrevemos as principais práticas recomendadas para melhorar a postura de segurança do Dataproc, incluindo recomendações para segurança de rede, Identity and Access Management, criptografia e configuração segura de cluster.

Segurança de rede

  • Implante o Dataproc em uma VPC particular. Crie uma nuvem privada virtual dedicada para os clusters do Dataproc, isolando-os de outras redes e da Internet pública.

  • Usar IPs particulares. Para proteger os clusters do Dataproc contra exposição à Internet pública, use endereços IP particulares para maior segurança e isolamento.

  • Configure regras de firewall. Implemente regras de firewall rígidas para controlar o tráfego de entrada e saída nos clusters do Dataproc. Permita apenas as portas e os protocolos necessários.

  • Usar o peering de rede Para maior isolamento, estabeleça peering de rede VPC entre a VPC do Dataproc e outras VPCs confidenciais para comunicação controlada.

  • Ative o Component Gateway. Ative o Gateway de componentes do Dataproc ao criar clusters para acessar com segurança as IUs do ecossistema Hadoop, como a UI do servidor SSH, HDFS ou Spark, em vez de abrir as portas de firewall.

Identity and Access Management

  • Isolar as permissões. Use diferentes contas de serviço do plano de dados para clusters distintos. Atribua às contas de serviço apenas as permissões necessárias para os clusters executarem as cargas de trabalho deles.

  • Evite depender da conta de serviço padrão do Google Compute Engine (GCE). Não use a conta de serviço padrão dos clusters.

  • Obedeça ao princípio de privilégio mínimo. Conceda apenas as permissões mínimas necessárias a contas de serviço e usuários do Dataproc.

  • Aplicar o controle de acesso baseado em função (RBAC) Considere definir as permissões do IAM para cada cluster.

  • Use papéis personalizados. Crie papéis de IAM personalizados detalhados para funções de trabalho específicas no ambiente do Dataproc.

  • Revise regularmente. Faça auditorias regulares das permissões e papéis do IAM para identificar e remover privilégios excessivos ou não utilizados.

Criptografia

  • Criptografar dados em repouso. Para criptografia de dados em repouso, use o Cloud Key Management Service (KMS) ou as chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês). Além disso, use políticas organizacionais para aplicar a criptografia de dados em repouso para a criação de clusters.

  • Criptografar dados em trânsito. Ative o SSL/TLS para a comunicação entre componentes do Dataproc (ativando o modo seguro do Hadoop) e serviços externos. Isso protege os dados em movimento.

  • Cuidado com dados sensíveis. Tenha cuidado ao armazenar e transmitir dados sensíveis, como PII ou senhas. Quando necessário, use soluções de criptografia e gerenciamento de secrets.

Configuração segura do cluster

  • Autenticar usando o Kerberos. Para impedir o acesso não autorizado a recursos do cluster, implemente o modo seguro do Hadoop usando a autenticação Kerberos. Para mais informações, consulte Multilocação segura com o Kerberos.

  • Use uma senha raiz principal forte e um armazenamento seguro baseado no KMS. Para clusters que usam o Kerberos, o Dataproc configura automaticamente os recursos de aumento da proteção de segurança para todos os componentes de código aberto em execução no cluster.

  • Ative o Login do SO. Ative o Login do SO para ter mais segurança ao gerenciar nós de cluster usando SSH.

  • Segregar buckets temporários e de teste no Google Cloud Storage (GCS). Para garantir o isolamento de permissões, separe os buckets temporários e os de teste para cada cluster do Dataproc.

  • Use o Secret Manager para armazenar credenciais. O Secret Manager pode proteger dados sensíveis, como chaves de API, senhas e certificados. Use-o para gerenciar, acessar e auditar seus secrets no Google Cloud.

  • Use restrições organizacionais personalizadas. Use uma política da organização personalizada para permitir ou negar operações específicas nos clusters do Dataproc. Por exemplo, se uma solicitação para criar ou atualizar um cluster não atender à validação de restrição personalizada, conforme definido pela política da organização, ela falhará e um erro será retornado ao autor da chamada.

A seguir

Saiba mais sobre outros recursos de segurança do Dataproc: