Proteger seu ambiente do Dataproc é crucial para proteger dados sensíveis e impedir o acesso não autorizado. Este documento descreve as principais práticas recomendadas para melhorar a postura de segurança do Dataproc, incluindo recomendações para segurança de rede, Identity and Access Management, criptografia e configuração segura de clusters.
Segurança de rede
Implante o Dataproc em uma VPC privada. Crie uma nuvem privada virtual dedicada para seus clusters do Dataproc, isolando-os de outras redes e da Internet pública.
Usar IPs particulares. Para proteger seus clusters do Dataproc contra a exposição à Internet pública, use endereços IP particulares para aumentar a segurança e o isolamento.
Configurar regras de firewall. Implemente regras de firewall rígidas para controlar o tráfego de entrada e saída dos clusters do Dataproc. Permita apenas portas e protocolos necessários.
Usar o peering de rede. Para um isolamento melhor, estabeleça o peering de rede VPC entre a VPC do Dataproc e outras VPCs sensíveis para uma comunicação controlada.
Ative o gateway de componentes. Ative o Gateway de componentes do Dataproc ao criar clusters para acessar com segurança as interfaces do ecossistema do Hadoop, como a do servidor YARN, do HDFS ou do Spark, em vez de abrir as portas do firewall.
Identity and Access Management
Isolamento de permissões. Use contas de serviço do plano de dados diferentes para clusters diferentes. Atribua às contas de serviço apenas as permissões que os clusters precisam para executar as cargas de trabalho.
Evite depender da conta de serviço padrão do Google Compute Engine (GCE). Não use a conta de serviço padrão para seus clusters.
Aderir ao princípio do privilégio mínimo. Conceda apenas as permissões mínimas necessárias a contas de serviço e usuários do Dataproc.
Aplicar o controle de acesso baseado em função (RBAC). Considere definir permissões do IAM para cada cluster.
Use funções personalizadas. Crie papéis personalizados do IAM com granularidade fina adaptados a funções de trabalho específicas no seu ambiente do Dataproc.
Revise regularmente. Faça auditorias regulares nas permissões e nos papéis do IAM para identificar e remover privilégios excessivos ou não utilizados.
Encryption
Criptografar dados em repouso. Para criptografia de dados em repouso, use o Cloud Key Management Service (KMS) ou chaves de criptografia gerenciadas pelo cliente (CMEK). Além disso, use políticas organizacionais para aplicar a criptografia de dados em repouso na criação de clusters.
Criptografar dados em trânsito. Ative o SSL/TLS para a comunicação entre componentes do Dataproc (ativando o modo seguro do Hadoop) e serviços externos. Isso protege os dados em trânsito.
Cuidado com dados sensíveis. Tenha cuidado ao armazenar e transmitir dados sensíveis, como PII ou senhas. Quando necessário, use soluções de criptografia e gerenciamento de segredos.
Configuração de cluster segura
Autenticar usando o Kerberos. Para evitar o acesso não autorizado aos recursos do cluster, implemente o modo seguro do Hadoop usando a autenticação Kerberos. Para mais informações, consulte Proteger a multilocação com o Kerberos.
Use uma senha raiz principal forte e armazene com segurança no KMS. Para clusters que usam o Kerberos, o Dataproc configura automaticamente recursos de aumento da segurança para todos os componentes de código aberto em execução no cluster.
Ative o Login do SO. Ative o Login do SO para mais segurança ao gerenciar nós de cluster usando SSH.
Separar buckets de preparação e temporários no Google Cloud Storage (GCS). Para garantir o isolamento de permissões, separe os buckets de preparação e temporários para cada cluster do Dataproc.
Use o Secret Manager para armazenar credenciais. O Secret Manager pode proteger seus dados sensíveis, como chaves de API, senhas e certificados. Use-o para gerenciar, acessar e auditar seus segredos no Google Cloud.
Usar restrições organizacionais personalizadas. É possível usar uma política de organização personalizada para permitir ou negar operações específicas em clusters do Dataproc. Por exemplo, se uma solicitação para criar ou atualizar um cluster não atender à validação de restrição personalizada definida pela política da sua organização, a solicitação falhará e um erro será retornado ao autor da chamada.
A seguir
Saiba mais sobre outros recursos de segurança do Dataproc:
- Proteger a multilocação com contas de serviço
- Configurar uma VM confidencial com criptografia de memória inline
- Ativar um serviço de autorização em cada VM do cluster