Descubra e inspecione seus dados

Esta página descreve e compara dois serviços de Proteção de Dados Sensíveis que ajudam você a entender seus dados e ativar fluxos de trabalho de governança de dados: o serviço de descoberta e o serviço de inspeção.

Descoberta de dados confidenciais

O serviço de descoberta monitora dados em toda a organização. Esse serviço é executado continuamente e descobre, classifica e cria perfis de dados de forma automática. A descoberta pode ajudar a entender o local e a natureza dos dados que você está armazenando, incluindo recursos de dados que você talvez não conheça. Os dados desconhecidos (às vezes chamados de dados sombra) geralmente não passam pelo mesmo nível de governança de dados e gerenciamento de riscos que os dados conhecidos.

Você configura a descoberta em vários escopos. É possível definir diferentes programações de criação de perfis para subconjuntos diferentes dos seus dados. Também é possível excluir subconjuntos de dados que não precisam de perfil.

Resultado da verificação de descoberta: perfis de dados

A saída de uma verificação de descoberta é um conjunto de perfis de dados para cada recurso de dados no escopo. Por exemplo, uma verificação de descoberta de dados do BigQuery ou do Cloud SQL gera perfis de dados nos níveis de projeto, tabela e coluna.

Um perfil de dados contém métricas e insights sobre o recurso. Ele inclui as classificações de dados (ou infoTypes), os níveis de sensibilidade, os níveis de risco de dados, o tamanho dos dados, o formato dos dados e outros elementos que descrevem a natureza dos dados e a postura de segurança de dados (o nível de segurança dos dados). Você pode usar perfis de dados para tomar decisões conscientes sobre como proteger seus dados, por exemplo, definindo políticas de acesso na tabela.

Considere uma coluna do BigQuery chamada ccn, em que cada linha contém um número de cartão de crédito exclusivo e não há valores nulos. O perfil de dados gerado no nível da coluna terá os seguintes detalhes:

Nome de exibição Valor
Field ID ccn
Data risk High
Sensitivity High
Data type TYPE_STRING
Policy tags No
Free text score 0
Estimated uniqueness High
Estimated null proportion Very low
Last profile generated DATE_TIME
Predicted infoType CREDIT_CARD_NUMBER

Além disso, esse perfil de coluna faz parte de um perfil de tabela, que fornece insights como a localização dos dados, o status de criptografia e se a tabela é compartilhada publicamente. No console do Google Cloud, também é possível conferir as entradas do Cloud Logging para a tabela, os principais usuários do IAM com papéis para a tabela e as tags do Dataplex anexadas à tabela.

Um perfil de dados no nível da tabela que mostra métricas e insights sobre a tabela e
permite que você a visualize no Logging, no IAM e no
Dataplex.

Para conferir uma lista completa de métricas e insights disponíveis nos perfis de dados, consulte a Referência de métricas.

Quando usar a descoberta

Ao planejar sua abordagem de gerenciamento de riscos de dados, recomendamos que você comece com a descoberta. O serviço de descoberta ajuda você a ter uma visão ampla dos seus dados e a ativar o alerta, o relatório e a correção de problemas.

Além disso, o serviço de descoberta pode ajudar a identificar os recursos em que os dados não estruturados podem estar. Esses recursos podem exigir uma inspeção completa. Os dados não estruturados são especificados por uma pontuação de texto livre alta em uma escala de 0 a 1.

Inspeção de dados sensíveis

O serviço de inspeção realiza uma verificação exaustiva de um único recurso para localizar cada instância individual de dados sensíveis. Uma inspeção produz um achado para cada instância detectada.

Os jobs de inspeção oferecem um conjunto completo de opções de configuração para ajudar a identificar os dados que você quer inspecionar. Por exemplo, você pode ativar a amostragem para limitar os dados a serem inspecionados a um determinado número de linhas (para dados do BigQuery) ou a determinados tipos de arquivo (para dados do Cloud Storage). Também é possível segmentar um período específico em que os dados foram criados ou modificados.

Ao contrário da descoberta, que monitora seus dados continuamente, uma inspeção é uma operação sob demanda. No entanto, é possível programar jobs de inspeção recorrentes chamados gatilhos de jobs.

Saída da verificação de inspeção: descobertas

Cada descoberta inclui detalhes como o local da instância detectada, o infoType potencial e a certeza (também chamada de probabilidade) de que a descoberta corresponde ao infoType. Dependendo das suas configurações, você também pode receber a string real a que o achado se refere. Essa string é chamada de citação na Proteção de dados sensíveis.

Para conferir uma lista completa de detalhes incluídos em uma descoberta de inspeção, consulte Finding.

Quando usar a inspeção

Uma inspeção é útil quando você precisa investigar dados não estruturados (como comentários ou avaliações criadas pelo usuário) e identificar cada instância de informações de identificação pessoal (PII). Se uma verificação de descoberta identificar recursos com dados não estruturados, recomendamos executar uma verificação de inspeção nesses recursos para conferir detalhes sobre cada descoberta individual.

Quando não usar a inspeção

Inspecionar um recurso não é útil se as duas condições a seguir forem aplicáveis. Uma verificação de descoberta pode ajudar você a decidir se uma verificação de inspeção é necessária.

  • Você só tem dados estruturados no recurso. Ou seja, não há colunas de dados de forma livre, como comentários ou avaliações de usuários.
  • Você já conhece os infoTypes armazenados nesse recurso.

Por exemplo, suponha que os perfis de dados de uma verificação de descoberta indiquem que uma determinada tabela do BigQuery não tem colunas com dados não estruturados, mas tem uma coluna de números de cartão de crédito exclusivos. Nesse caso, a inspeção de números de cartão de crédito na tabela não é útil. Uma inspeção vai gerar uma detecção para cada item na coluna. Se você tiver um milhão de linhas e cada linha conter um número de cartão de crédito, um job de inspeção vai produzir um milhão de descobertas para o infoType CREDIT_CARD_NUMBER. Nesse exemplo, a inspeção não é necessária porque a verificação de descoberta já indica que a coluna contém números de cartão de crédito únicos.

Residência, processamento e armazenamento de dados

A descoberta e a inspeção oferecem suporte aos requisitos de residência de dados:

  • O serviço de descoberta processa seus dados onde eles estão e armazena os perfis de dados gerados na mesma região ou multirregião que os dados perfilados. Para mais informações, consulte Considerações sobre a residência de dados.
  • Ao inspecionar dados em um sistema de armazenamento do Google Cloud, o serviço de inspeção processa seus dados na mesma região em que eles residem e armazena o job de inspeção nessa região. Ao inspecionar dados usando um job híbrido ou um método content, o serviço de inspeção permite especificar onde ele precisa processar seus dados. Para mais informações, consulte Como os dados são armazenados.

Resumo da comparação: serviços de descoberta e inspeção

Discovery Inspeção
Vantagens
  • Visibilidade contínua em uma organização, pasta ou projeto.
  • Ajuda a identificar os recursos que contêm dados sensíveis, de alto risco e não estruturados. Para conferir uma lista completa de insights, consulte a Referência de métricas.
  • Ajuda a descobrir dados desconhecidos (ou _dados sombra_).
  • Inspeção sob demanda de um único recurso.
  • Identifica cada instância de dados sensíveis no recurso inspecionado.
Custo
  • Execução de uma estimativa de custo: gratuita
  • Modo de consumo: US$0,03 por GB ou o preço de 3 TB, o que for menor
  • Modo de assinatura (capacidade reservada): US$2.500 por unidade de assinatura

O custo aproximado de 10 TB no modo de consumo é de US$300 por mês.
  • Até 1 GB: gratuito
  • De 1 GB a 50 TB: US$1,00 por GB
  • De 50 TB a 500 TB: US$0,75 por GB
  • Mais de 500 TB: US$0,60 por GB

O custo aproximado para 10 TB é de US$10.000 por verificação.
Fontes de dados compatíveis BigLake
BigQuery
Variáveis de ambiente das funções do Cloud Run
Variáveis de ambiente da revisão de serviço do Cloud Run
Cloud SQL
Cloud Storage
Vertex AI (pré-lançamento)
Amazon S3
BigQuery
Cloud Storage
Datastore
Híbrido (qualquer origem)1
Escopos compatíveis
  • Uma organização, pasta, projeto ou recurso de dados do Google Cloud
  • Uma organização, conta ou bucket do Amazon S3 do Amazon Web Services
Uma única tabela do BigQuery, bucket do Cloud Storage ou tipo do Datastore.
Modelos de inspeção integrada Sim Sim
InfoTypes integrados e personalizados Sim Sim
Resultado da verificação Visão geral de alto nível (perfis de dados) de todos os dados com suporte. Descobertas concretas de dados sensíveis no recurso inspecionado.
Salvar resultados no BigQuery Sim Sim
Enviar para o Dataplex como tags Sim Sim
Publicar resultados no Security Command Center Sim Sim
Publicar descobertas no Google Security Operations Sim para descoberta no nível da organização e da pasta Não
Publicar no Pub/Sub Sim Sim
Suporte à residência de dados Sim Sim

1 A inspeção híbrida tem um modelo de preços diferente. Para mais informações, consulte Inspeção de dados de qualquer origem .

A seguir