A proteção do seu ambiente do Dataproc é fundamental para proteger dados confidenciais e impedir o acesso não autorizado. Este documento descreve as principais práticas recomendadas para melhorar a sua postura de segurança do Dataproc, incluindo recomendações para segurança de rede, gestão de identidades e acessos, encriptação e configuração segura de clusters.
Segurança de redes
Implemente o Dataproc numa VPC privada. Crie uma nuvem privada virtual dedicada para os seus clusters do Dataproc, isolando-os de outras redes e da Internet pública.
Use IPs privados. Para proteger os seus clusters do Dataproc da exposição à Internet pública, use endereços IP privados para uma segurança e um isolamento melhorados.
Configure regras de firewall. Implemente regras de firewall rigorosas para controlar o tráfego de e para os seus clusters do Dataproc. Permita apenas as portas e os protocolos necessários.
Use a interligação de redes. Para um isolamento melhorado, estabeleça o intercâmbio da rede da VPC entre a sua VPC do Dataproc e outras VPCs confidenciais para uma comunicação controlada.
Ative o gateway de componentes. Ative o Dataproc Component Gateway quando criar clusters para aceder em segurança às IUs do ecossistema Hadoop, como a IU do servidor YARN, HDFS ou Spark, em vez de abrir as portas da firewall.
Gestão de identidade e de acesso
Isolar autorizações. Use diferentes contas de serviço do plano de dados para diferentes clusters. Atribua às contas de serviço apenas as autorizações de que os clusters precisam para executar as respetivas cargas de trabalho.
Evite depender da conta de serviço predefinida do Google Compute Engine (GCE). Não use a conta de serviço predefinida para os seus clusters.
Aderir ao princípio do menor privilégio. Conceda apenas as autorizações necessárias mínimas às contas de serviço e aos utilizadores do Dataproc.
Aplique o controlo de acesso baseado em funções (CABF). Considere definir autorizações da IAM para cada cluster.
Use funções personalizadas. Crie funções do IAM personalizadas detalhadas adaptadas a funções específicas no seu ambiente do Dataproc.
Reveja regularmente. Audite regularmente as autorizações e as funções do IAM para identificar e remover privilégios excessivos ou não usados.
Encriptação
Encripte dados em repouso. Para a encriptação de dados em repouso, use o Cloud Key Management Service (KMS) ou as chaves de encriptação geridas pelo cliente (CMEK). Além disso, use políticas organizacionais para aplicar a encriptação de dados em repouso para a criação de clusters.
Encripte os dados em trânsito. Ativar o SSL/TLS para a comunicação entre os componentes do Dataproc (ativando o modo seguro do Hadoop) e os serviços externos. Isto protege os dados em movimento.
Tenha cuidado com os dados confidenciais. Tenha cuidado ao armazenar e transmitir dados sensíveis, como PII ou palavras-passe. Quando necessário, use soluções de encriptação e gestão de segredos.
Configuração segura do cluster
Faça a autenticação através do Kerberos. Para impedir o acesso não autorizado a recursos do cluster, implemente o modo seguro do Hadoop através da autenticação Kerberos. Para mais informações, consulte o artigo Proteja a multi-posse através do Kerberos.
Use uma palavra-passe principal de raiz forte e um armazenamento baseado no KMS seguro. Para clusters que usam o Kerberos, o Dataproc configura automaticamente funcionalidades de reforço da segurança para todos os componentes de código aberto em execução no cluster.
Ative o Início de sessão do SO. Ative o Início de sessão do SO para maior segurança ao gerir nós do cluster através de SSH.
Segregue contentores de preparação e temporários no Google Cloud Storage (GCS). Para garantir o isolamento das autorizações, segmente os buckets de teste e temporários para cada cluster do Dataproc.
Use o Secret Manager para armazenar credenciais. O Secret Manager pode proteger os seus dados confidenciais, como chaves de API, palavras-passe e certificados. Use-o para gerir, aceder e auditar os seus segredos em Google Cloud.
Use restrições organizacionais personalizadas. Pode usar uma política de organização personalizada para permitir ou recusar operações específicas em clusters do Dataproc. Por exemplo, se um pedido de criação ou atualização de um cluster não cumprir a validação de restrições personalizadas definida pela política da sua organização, o pedido falha e é devolvido um erro ao autor da chamada.
O que se segue?
Saiba mais sobre outras funcionalidades de segurança do Dataproc:
- Proteja a multilocação através de contas de serviço
- Configure uma VM confidencial com encriptação de memória inline
- Ative um serviço de autorização em cada VM do cluster