Desidentificação

A proteção de dados sensíveis usa tipos de informações (InfoTypes) para definir o que é verificado. Os infoTypes são tipos de dados confidenciais, como nome, endereço de e-mail, número de telefone, número de identificação, número de cartão de crédito etc.

Cada infoType definido na proteção de dados sensíveis tem um detector correspondente. A proteção de dados confidenciais usa detectores de infoType na configuração para suas verificações a fim de determinar o que inspecionar e como transformar descobertas. Os nomes de infoType também são usados ao exibir ou informar os resultados da verificação.

Neste tópico, descrevemos os infoTypes e os detectores de infoType em detalhes e oferecemos orientações sobre como usá-los ao verificar dados sensíveis em conteúdo usando a proteção de dados sensíveis.

Como especificar detectores de infoType

Ao configurar a proteção de dados sensíveis para verificar seu conteúdo, inclua os detectores de infoType que serão usados na configuração da verificação.

Por exemplo, o JSON a seguir demonstra uma solicitação de verificação simples para a API DLP. O detector PHONE_NUMBER é especificado em inspectConfig, que instrui a proteção de dados sensíveis a verificar a string fornecida em busca de um número de telefone.

POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}

{
  "item":{
    "value":"My phone number is (415) 555-0890"
  },
  "inspectConfig":{
    "includeQuote":true,
    "minLikelihood":"POSSIBLE",
    "infoTypes":{
      "name":"PHONE_NUMBER"
    }
  }
}

A solicitação anterior retorna o seguinte:

{
  "result":{
    "findings":[
      {
        "quote":"(415) 555-0890",
        "infoType":{
          "name":"PHONE_NUMBER"
        },
        "likelihood":"VERY_LIKELY",
        "location":{
          "byteRange":{
            "start":"19",
            "end":"33"
          },
          "codepointRange":{
            "start":"19",
            "end":"33"
          }
        },
        "createTime":"2018-10-29T23:46:34.535Z"
      }
    ]
  }
}

Sempre especifique infoTypes na configuração da verificação. Se nenhum infoType for especificado, a proteção de dados confidenciais usará uma lista padrão. Dependendo da quantidade de conteúdo a ser verificada, a verificação de infoTypes padrão pode ser extremamente demorada ou dispendiosa.

Para mais informações sobre como usar os detectores de infoType para verificar conteúdo, consulte um dos tópicos de instruções sobre inspeção, edição ou desidentificação.

Tipos de detectores de infoType

Os detectores de tipo de informação (ou "InfoType") são os mecanismos que a proteção de dados sensíveis usa para encontrar dados sensíveis.

A proteção de dados sensíveis inclui vários tipos de detectores de infoType, todos resumidos aqui:

  • Os detectores de infoType integrados fazem parte da proteção de dados sensíveis. Eles incluem detectores para tipos de dados confidenciais específicos do país ou da região, bem como tipos de dados aplicáveis globalmente.
  • Os detectores de infoType personalizados são aqueles que você mesmo cria. Eles são divididos em três tipos:
    • Os detectores de dicionários personalizados regulares são listas de palavras simples com as quais a proteção de dados sensíveis faz a correspondência. Use-os quando tiver uma lista de até dezenas de milhares de palavras ou frases. Dê preferência aos detectores de dicionários personalizados regulares se você não espera mudanças significativas na sua lista de palavras.
    • Os detectores de dicionários personalizados armazenados são gerados pela Proteção de dados sensíveis usando grandes listas de palavras ou frases armazenadas no Cloud Storage ou no BigQuery. Use-os quando tiver uma lista grande de até dezenas de milhões de palavras ou frases.
    • Os detectores de expressões regulares (regex) permitem que a proteção de dados sensíveis detecte correspondências com base em um padrão de expressão regular.

Além disso, a proteção de dados sensíveis inclui o conceito de regras de inspeção. Com elas, você ajusta os resultados da verificação usando o seguinte:

  • Regras de exclusão, que permitem diminuir o número de descobertas retornadas adicionando regras a um detector de infoType integrado ou personalizado.
  • Regras de hotword, que permitem aumentar a quantidade ou alterar o valor de probabilidade das descobertas retornadas adicionando regras a um detector de infoType integrado ou personalizado.

Detectores de infoType integrados

Os detectores de infoType integrados são integrados à proteção de dados sensíveis e incluem vários tipos de dados sensíveis específicos do país ou da região, como o Numéro d'Inscription au Répertoire (NIR) (FRANCE_NIR), o número da carteira de habilitação do Reino Unido (UK_DRIVERS_LICENSE_NUMBER) e o número da Previdência Social dos EUA (US_SOCIAL_SECURITY_NUMBER), além de tipos de dados, tipos de dados e infoType de verificação, números de cartão de crédito e InfoType (número de cartão de crédito, nome de pessoa (PERSON_NAME) e técnicas de infoType, dados, tipos de dados e infoType de correspondência global, como nome de pessoa (PERSON_NAME).PHONE_NUMBEREMAIL_ADDRESSCREDIT_CARD_NUMBER

A lista de detectores de infoType integrados está sempre em atualização. Para uma lista completa daqueles que são compatíveis atualmente, consulte Referência dos detectores de infoType.

Também é possível ver uma lista completa de todos os detectores de infoType integrados chamando o método infoTypes.list da proteção de dados sensíveis.

Os detectores de infoType integrados não são um método de detecção totalmente preciso. Eles não podem garantir conformidade com requisitos regulamentares, por exemplo. Você precisa decidir que dados são confidenciais e como eles serão protegidos. O Google recomenda que você teste suas configurações para ter certeza de que elas atendem aos requisitos.

Detectores de infoType personalizados

Há três tipos de detectores de infoType personalizados:

Além disso, a proteção de dados sensíveis inclui regras de inspeção que permitem ajustar os resultados da verificação adicionando as seguintes regras aos detectores atuais:

Detectores de dicionários personalizados regulares

Use os detectores de dicionários personalizados regulares para corresponder uma lista curta (até várias dezenas de milhares) de palavras ou frases. Um dicionário personalizado regular pode atuar como seu próprio detector exclusivo.

Os detectores de dicionários personalizados são úteis quando você quer verificar uma lista de palavras ou frases que não são facilmente correspondidas por uma expressão regular ou um detector incorporado. Por exemplo, se você quiser verificar salas de conferência que geralmente são identificadas não por números, mas por nomes, como nomes de estado ou região, pontos de referência, personagens fictícios, entre outros. É possível fazer um detector de dicionário personalizado regular que contenha a lista desses nomes de sala. A proteção de dados sensíveis pode verificar seu conteúdo para cada um dos nomes de quarto e retornar uma correspondência quando encontra um deles no contexto. Saiba mais sobre como a proteção de dados confidenciais associa palavras e frases do dicionário na seção Especificações de correspondência de dicionário em Como criar um detector de dicionário personalizado regular.

Para mais detalhes sobre como os detectores de infoType de dicionário personalizado regular funcionam e ver exemplos em ação, consulte Como criar um detector de dicionário personalizado regular.

Detectores de dicionários personalizados armazenados

Use detectores de dicionários personalizados armazenados quando tiver muitas palavras ou frases a verificar, ou se a lista de palavras ou frases for alterada com frequência. Os detectores de dicionários personalizados armazenados podem fazer correspondências em até dezenas de milhões de palavras ou frases.

Como os detectores de dicionários personalizados armazenados são muito grandes, eles são criados de maneira diferente dos detectores personalizados de expressão regular e dos detectores de dicionários personalizados regulares. Cada um deles tem dois componentes:

  • Uma lista de frases que você cria e define. Essa lista é armazenada como um arquivo de texto no Cloud Storage ou como uma coluna em uma tabela do BigQuery.
  • Os arquivos de dicionário gerados, que são criados pela Proteção de dados sensíveis com base na sua lista de frases. Os arquivos de dicionário são armazenados no Cloud Storage e compostos por uma cópia dos dados da frase de origem e dos filtros de Bloom, que ajudam na pesquisa e na correspondência. Não é possível editar esses arquivos diretamente.

Depois de criar uma lista de palavras e usar a proteção de dados sensíveis para gerar um dicionário personalizado, inicie ou programe uma verificação usando um detector de dicionário personalizado armazenado de maneira semelhante a outros detectores de infoType.

Para mais informações sobre como os detectores de dicionários personalizados armazenados funcionam e ver exemplos em ação, consulte Como criar um detector de dicionário personalizado armazenado.

Expressões regulares

Um detector de infoType personalizado de expressão regular (regex) permite que você crie seus próprios detectores de infoType, que permitem que a proteção de dados sensíveis detecte correspondências com base em um padrão de regex. Por exemplo, suponha que você tivesse números de registros médicos no formato ###-#-#####. Seria possível definir um padrão de regex como o seguinte:

[1-9]{3}-[1-9]{1}-[1-9]{5}

A proteção de dados sensíveis corresponderia a itens como estes:

123-4-56789

Também é possível especificar uma probabilidade a ser atribuída a cada correspondência de infoType personalizada. Ou seja, quando a proteção de dados sensíveis corresponder à sequência especificada, ela atribuirá a probabilidade indicada por você. Isso é útil porque, se a regex personalizada definir uma sequência comum o suficiente, ela poderá corresponder facilmente a alguma outra sequência aleatória, e você não vai querer que a proteção de dados sensíveis rotule todas as correspondências como VERY_LIKELY. Fazer isso diminuiria a confiança nos resultados da verificação e possivelmente desidentificaria as informações incorretas.

Para saber mais sobre detectores de infoType personalizados de expressões regulares e vê-los em ação, consulte Como criar um detector de regex personalizado.

Regras de inspeção

Use regras de inspeção para refinar os resultados retornados pelos detectores de infoType atuais, sejam eles incorporados ou personalizados. As regras de inspeção podem ser úteis quando os resultados retornados pela proteção de dados sensíveis precisam ser aumentados com a adição ou exclusão do detector de infoType existente.

Veja a seguir os dois tipos de regras de inspeção:

  • Regras de exclusão
  • Regras de hotword

Para saber mais sobre regras de inspeção, consulte Como modificar os detectores de InfoType para refinar os resultados da verificação.

Regras de exclusão

As regras de exclusão permitem diminuir a quantidade ou a precisão das descobertas retornadas ao adicionar regras a um detector de infoType integrado ou personalizado. Essas regras podem ajudar a reduzir o ruído ou impedir que resultados indesejados sejam retornados por um detector de infoType.

Por exemplo, se você verificar endereços de e-mail em um banco de dados, poderá adicionar uma regra de exclusão na forma de um regex personalizado que instrui a proteção de dados sensíveis a excluir quaisquer descobertas que terminem em "@example.com".

Para mais informações sobre regras de exclusão, consulte Como modificar os detectores de InfoType para refinar os resultados da verificação.

Regras de hotword

As regras de hotword permitem aumentar a quantidade ou precisão das descobertas retornadas ao adicionar regras a um detector de infoType integrado ou personalizado. As regras de hotword podem ajudá-lo efetivamente a flexibilizar as regras de um detector de infoType atual.

Por exemplo, suponha que você queira verificar nomes de pacientes em um banco de dados médico. É possível usar o detector de infoType PERSON_NAME integrado da proteção de dados sensíveis, mas isso fará com que a proteção de dados sensíveis corresponda a todos os nomes de pessoas, não apenas aos pacientes. Para corrigir esse problema, inclua uma regra de hotword no formato de um infoType personalizado de regex que procura pela palavra “paciente” dentro de uma determinada proximidade de caracteres do primeiro caractere de possíveis correspondências. Em seguida, é possível atribuir a descobertas correspondentes a esse padrão uma probabilidade de "muito provável", já que elas correspondem aos critérios especiais.

Para mais informações sobre regras de hotwords, consulte Como modificar os detectores de InfoType para refinar os resultados da verificação.