Estratégias recomendadas para reduzir o risco de dados

Esta página apresenta estratégias recomendadas para identificar e remediar o risco de dados na sua organização.

A proteção dos seus dados começa com a compreensão dos dados que você está processando, onde os dados sensíveis estão localizados e como eles são protegidos e usados. Quando você tem uma visão abrangente dos seus dados e da postura de segurança deles, é possível tomar as medidas adequadas para protegê-los e monitorar continuamente o compliance e o risco.

Nesta página, presumimos que você esteja familiarizado com os serviços de descoberta e inspeção e as diferenças entre eles.

Ativar a descoberta de dados sensíveis

Para determinar onde existem dados sensíveis na sua empresa, configure a descoberta no nível da organização, da pasta ou do projeto. Esse serviço gera perfis de dados com métricas e insights sobre seus dados, incluindo os níveis de sensibilidade e de risco.

Como serviço, a descoberta funciona como uma fonte de verdade sobre seus recursos de dados e pode gerar relatórios de métricas automaticamente para relatórios de auditoria. Além disso, a descoberta pode se conectar a outros serviços do Google Cloud, como o Security Command Center, o Google Security Operations e o Dataplex, para enriquecer as operações de segurança e o gerenciamento de dados.

O serviço de descoberta é executado continuamente e detecta novos dados à medida que a organização opera e cresce. Por exemplo, se alguém na sua organização criar um novo projeto e fazer upload de uma grande quantidade de novos dados, o serviço de descoberta poderá descobrir, classificar e gerar relatórios sobre os novos dados automaticamente.

A Proteção de dados sensíveis oferece um relatório predefinido de várias páginas do Looker que mostra uma visão geral dos seus dados, incluindo detalhes por risco, infoType e local. No exemplo abaixo, o relatório mostra que dados de baixa e alta sensibilidade estão presentes em vários países do mundo.

Relatório predefinido

Tomar medidas com base nos resultados da descoberta

Depois de ter uma visão ampla da postura de segurança de dados, você pode corrigir os problemas encontrados. Em geral, as descobertas de descoberta se enquadram em um dos seguintes cenários:

  • Cenário 1: dados sensíveis foram encontrados em uma carga de trabalho em que são esperados e protegidos adequadamente.
  • Cenário 2: dados sensíveis foram encontrados em uma carga de trabalho em que não era esperado ou em que não havia controles adequados.
  • Cenário 3: dados sensíveis foram encontrados, mas precisam de mais investigação.

Cenário 1: dados sensíveis foram encontrados e estão devidamente protegidos

Embora esse cenário não exija uma ação específica, é necessário incluir os perfis de dados nos relatórios de auditoria e nos fluxos de trabalho de análise de segurança e continuar monitorando as mudanças que podem colocar seus dados em risco.

Recomendamos que você faça o seguinte:

  • Publique os perfis de dados em ferramentas para monitorar sua postura de segurança e investigar ameaças cibernéticas. Os perfis de dados podem ajudar a determinar a gravidade de uma ameaça ou vulnerabilidade de segurança que pode colocar seus dados sensíveis em risco. É possível exportar perfis de dados automaticamente para:

  • Publique os perfis de dados no Dataplex ou em um sistema de inventário para acompanhar as métricas do perfil de dados com outros metadados comerciais apropriados. Para informações sobre como exportar automaticamente perfis de dados para o Dataplex, consulte Marcar tabelas no Dataplex com base em insights de perfis de dados.

Cenário 2: dados sensíveis foram encontrados e não estão protegidos adequadamente

Se a descoberta encontrar dados sensíveis em um recurso que não esteja devidamente protegido por controles de acesso, considere as recomendações descritas nesta seção.

Depois de estabelecer os controles e a postura de segurança de dados corretos, monitore as mudanças que podem colocar seus dados em risco. Confira as recomendações no cenário 1.

Recomendações gerais

Considere fazer o seguinte:

  • Faça uma cópia desidentificada dos seus dados para mascarar ou tokenizar as colunas sensíveis. Assim, os analistas e engenheiros de dados ainda poderão trabalhar com seus dados sem revelar identificadores sensíveis brutos, como informações de identificação pessoal (PII).

    Para dados do Cloud Storage, use um recurso integrado na Proteção de dados sensíveis para criar cópias desidentificadas.

  • Se você não precisar dos dados, considere excluí-los.

Recomendações para proteger dados do BigQuery

Recomendações para proteger dados do Cloud Storage

Cenário 3: dados sensíveis foram encontrados, mas precisam de mais investigação

Em alguns casos, você pode receber resultados que exigem mais investigação. Por exemplo, um perfil de dados pode especificar que uma coluna tem uma pontuação de texto livre alta com evidências de dados sensíveis. Uma pontuação alta de texto livre indica que os dados não têm uma estrutura previsível e podem conter instâncias intermitentes de dados sensíveis. Pode ser uma coluna de anotações em que determinadas linhas contêm PII, como nomes, detalhes de contato ou identificadores emitidos pelo governo. Nesse caso, recomendamos que você defina outros controles de acesso na tabela e realize outras correções descritas no cenário 2. Além disso, recomendamos fazer uma inspeção mais profunda e direcionada para identificar a extensão do risco.

O serviço de inspeção permite executar uma verificação completa de um único recurso, como uma tabela do BigQuery ou um bucket do Cloud Storage. Para fontes de dados que não têm suporte direto do serviço de inspeção, é possível exportar os dados para um bucket do Cloud Storage ou uma tabela do BigQuery e executar um job de inspeção nesse recurso. Por exemplo, se você tiver dados que precisam ser inspecionados em um banco de dados do Cloud SQL, exporte esses dados para um arquivo CSV ou AVRO no Cloud Storage e execute um job de inspeção.

Um job de inspeção localiza instâncias individuais de dados sensíveis, como um número de cartão de crédito no meio de uma frase dentro de uma célula da tabela. Esse nível de detalhes pode ajudar você a entender que tipo de dados está presente em colunas não estruturadas ou em objetos de dados, incluindo arquivos de texto, PDFs, imagens e outros formatos de documentos interativos. Em seguida, você pode corrigir as descobertas usando qualquer uma das recomendações descritas no cenário 2.

Além das etapas recomendadas no cenário 2, considere tomar medidas para impedir que informações sensíveis entrem no armazenamento de dados de back-end. Os métodos content da API Cloud Data Loss Prevention podem aceitar dados de qualquer carga de trabalho ou aplicativo para inspeção e mascaramento de dados em movimento. Por exemplo, o aplicativo pode fazer o seguinte:

  1. Aceitar um comentário fornecido pelo usuário.
  2. Execute content.deidentify para desidentificar todos os dados sensíveis dessa string.
  3. Salve a string desidentificada no armazenamento de back-end em vez da string original.

Resumo das práticas recomendadas

A tabela a seguir resume as práticas recomendadas neste documento:

Desafio Ação
Você quer saber que tipo de dados sua organização está armazenando. Execute a descoberta no nível da organização, da pasta ou do projeto.
Você encontrou dados sensíveis em um recurso que já está protegido. Monitore esse recurso continuamente executando a descoberta e exportando automaticamente os perfis para o Security Command Center, o Google SecOps e o Dataplex.
Você encontrou dados sensíveis em um recurso que não está protegido. Ocultar ou mostrar dados com base em quem está visualizando. Use o IAM, a segurança no nível da coluna ou no nível da linha. Também é possível usar as ferramentas de desidentificação da Proteção de dados sensíveis para transformar ou remover os elementos sensíveis.
Você encontrou dados sensíveis e precisa investigar mais para entender a extensão do risco de dados. Execute um job de inspeção no recurso. Também é possível impedir proativamente que dados sensíveis entrem no armazenamento de back-end usando os métodos content síncronos da API DLP, que processam dados quase em tempo real.