A proteção de dados sensíveis usa tipos de informações (InfoTypes) para definir o que é verificado. Os infoTypes são tipos de dados confidenciais, como nome, endereço de e-mail, número de telefone, número de identificação, número de cartão de crédito etc. Um detector de infoType é o mecanismo de detecção correspondente que corresponde aos critérios de correspondência de um infoType.
Como usar infoTypes
A proteção de dados confidenciais usa detectores de infoType na configuração para suas verificações a fim de determinar o que inspecionar e como transformar as descobertas. Os nomes de infoType também são usados ao exibir ou informar os resultados da verificação.
Por exemplo, se você quiser procurar endereços de e-mail em um bloco de texto, especifique o detector de infoType EMAIL_ADDRESS
na configuração de inspeção. Se você quiser editar endereços de e-mail do bloco de texto, especifique EMAIL_ADDRESS
na configuração da inspeção e na configuração da desidentificação para indicar como editar ou transformar esse tipo.
Além disso, é possível usar uma combinação de detectores de infoType integrados e personalizados para excluir um subconjunto de endereços de e-mail das descobertas da verificação. Primeiro, crie um infoType personalizado chamado INTERNAL_EMAIL_ADDRESS
e configure-o para excluir endereços de e-mail de teste interno. Em seguida, configure a verificação para incluir descobertas para EMAIL_ADDRESS
, mas inclua uma regra de exclusão que exclua todas as descobertas que correspondam a INTERNAL_EMAIL_ADDRESS
. Para mais informações sobre regras de exclusão e outros recursos de detectores de infoType personalizados, consulte Como criar detectores de infoType personalizados.
A proteção de dados sensíveis oferece um conjunto de detectores de infoType integrados especificados por nome. Cada um deles é listado na referência do detector de InfoType. Esses detectores usam uma variedade de técnicas para descobrir e classificar cada tipo. Por exemplo, alguns tipos exigem uma correspondência de padrão, alguns podem ter somas de verificação matemáticas, alguns têm restrições especiais de dígitos e outros podem ter prefixos específicos ou contexto sobre as descobertas.
Examples
Ao configurar a proteção de dados sensíveis para verificar seu conteúdo, você inclui os detectores de infoType que serão usados na configuração da verificação.
Por exemplo, os exemplos JSON e de código a seguir demonstram uma solicitação de verificação simples para a API DLP. O detector PHONE_NUMBER
é especificado em
inspectConfig
,
que instrui a proteção de dados sensíveis a verificar a string fornecida em busca de um
número de telefone.
C#
Para saber como instalar e usar a biblioteca de cliente para proteção de dados sensíveis, consulte Bibliotecas de cliente de proteção de dados sensíveis.
Para usar a proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Go
Para saber como instalar e usar a biblioteca de cliente para proteção de dados sensíveis, consulte Bibliotecas de cliente de proteção de dados sensíveis.
Para usar a proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca de cliente para proteção de dados sensíveis, consulte Bibliotecas de cliente de proteção de dados sensíveis.
Para usar a proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca de cliente para proteção de dados sensíveis, consulte Bibliotecas de cliente de proteção de dados sensíveis.
Para usar a proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
PHP
Para saber como instalar e usar a biblioteca de cliente para proteção de dados sensíveis, consulte Bibliotecas de cliente de proteção de dados sensíveis.
Para usar a proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca de cliente para proteção de dados sensíveis, consulte Bibliotecas de cliente de proteção de dados sensíveis.
Para usar a proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
REST
Entrada JSON:
POST https://dlp.googleapis.com/v2/projects/[PROJECT-ID]/content:inspect?key={YOUR_API_KEY}
{
"item":{
"value":"My phone number is (415) 555-0890"
},
"inspectConfig":{
"includeQuote":true,
"minLikelihood":"POSSIBLE",
"infoTypes":{
"name":"PHONE_NUMBER"
}
}
}
Quando você envia a solicitação anterior para o endpoint especificado, a proteção de dados sensíveis retorna o seguinte:
Saída JSON:
{
"result":{
"findings":[
{
"quote":"(415) 555-0890",
"infoType":{
"name":"PHONE_NUMBER"
},
"likelihood":"VERY_LIKELY",
"location":{
"byteRange":{
"start":"19",
"end":"33"
},
"codepointRange":{
"start":"19",
"end":"33"
}
},
"createTime":"2018-10-29T23:46:34.535Z"
}
]
}
}
Se for necessário ter controle e previsibilidade precisos sobre quais detectores são executados, especifique InfoTypes específicos listados na referência, caso contrário, a proteção de dados confidenciais usa uma lista padrão, que pode mudar com o tempo. Dependendo da quantidade de conteúdo a ser verificada, a verificação de infoTypes padrão pode ser extremamente demorada ou dispendiosa.
Para mais informações sobre como usar os detectores de infoType para verificar conteúdo, consulte um dos tópicos de instruções sobre inspeção, edição ou desidentificação.
Certeza e teste
As descobertas são informadas com uma pontuação de certeza chamada de probabilidade. A pontuação de probabilidade indica até que ponto é provável que uma descoberta corresponda ao tipo. Por exemplo, um tipo pode retornar uma probabilidade menor se corresponder apenas ao padrão e retornar uma probabilidade maior se corresponder ao padrão e tiver contexto positivo ao redor dele. Por esse motivo, é possível perceber que uma única descoberta pode corresponder a vários tipos com menor probabilidade. Além disso, uma descoberta pode não aparecer ou pode ter menos certeza se não corresponder corretamente ou se tiver contexto negativo em torno dela. Por exemplo, uma descoberta pode não ser informada se corresponder à estrutura do infoType especificado, mas falhar na soma de verificação do infoType. Ou uma descoberta pode corresponder a mais de um infoType, mas ter um contexto que impulsiona um deles e, portanto, só é informado para esse tipo.
Se você estiver testando vários detectores, poderá notar que dados falsos ou de amostra não são informados porque esses dados não são aprovados em verificações suficientes.
Tipos de detectores de infoType
A proteção de dados sensíveis inclui vários tipos de detectores de infoType, todos resumidos aqui:
- Os detectores de infoType integrados fazem parte da proteção de dados sensíveis. Eles incluem detectores para tipos de dados confidenciais específicos do país ou da região, bem como tipos de dados aplicáveis globalmente.
- Os detectores de infoType personalizados são aqueles que você mesmo cria. Eles são divididos em três tipos:
- Os pequenos detectores de dicionários personalizados são listas de palavras simples com as quais a Proteção de dados sensíveis faz a correspondência. Use detectores de dicionário personalizados pequenos quando tiver uma lista de até várias dezenas de milhares de palavras ou frases. Os detectores de dicionários personalizados pequenos são preferidos caso você não preveja alterações significativas na sua lista de palavras.
- Grandes detectores de dicionários personalizados são gerados pela Proteção de dados sensíveis usando grandes listas de palavras ou frases armazenadas no Cloud Storage ou no BigQuery. Use detectores de dicionário personalizados grandes quando tiver uma lista grande de palavras ou frases, até dezenas de milhões.
- Os detectores de expressões regulares (regex) permitem que a proteção de dados sensíveis detecte correspondências com base em um padrão de expressão regular.
Além disso, a proteção de dados sensíveis inclui o conceito de regras de inspeção. Com elas, você ajusta os resultados da verificação usando o seguinte:
- Regras de exclusão, que permitem diminuir o número de descobertas retornadas adicionando regras a um detector de infoType integrado ou personalizado.
- Regras de hotword, que permitem aumentar a quantidade ou alterar o valor de probabilidade das descobertas retornadas adicionando regras a um detector de infoType integrado ou personalizado.
Detectores de infoType integrados
Os detectores de infoType integrados são incorporados à proteção de dados sensíveis e incluem vários tipos de dados sensíveis específicos do país ou da região, como Numéro d'Inscription au Répertoire (NIR) (FRANCE_NIR
) francês, número da carteira de habilitação do Reino Unido (UK_DRIVERS_LICENSE_NUMBER
) e número da Previdência Social dos EUA (US_SOCIAL_SECURITY_NUMBER
), além de tipos de dados, tipos de dados e infoType de verificação, tipos de dados, tipos de dados e infoType de verificação, tipos de dados e infoType de verificação (como nome de pessoa (PERSON_NAME
) e outros tipos de dados, como o nome de pessoa (PERSON_NAME
), dados de verificação e dados sensíveis (PERSON_NAME
).PHONE_NUMBER
EMAIL_ADDRESS
CREDIT_CARD_NUMBER
A lista de detectores de infoType integrados está sempre em atualização. Para uma lista completa daqueles que são compatíveis atualmente, consulte Referência dos detectores de infoType.
Também é possível ver uma lista completa de todos os detectores de infoType integrados chamando o método infoTypes.list
da proteção de dados sensíveis.
Os detectores de infoType integrados não são um método de detecção totalmente preciso. Eles não podem garantir conformidade com requisitos regulamentares, por exemplo. Você precisa decidir que dados são confidenciais e como eles serão protegidos. O Google recomenda que você teste suas configurações para ter certeza de que elas atendem aos requisitos.
Suporte ao idioma
Os infoTypes específicos do país são compatíveis com o idioma inglês e os idiomas do respectivo país. A maioria dos infoTypes globais funciona com vários idiomas. Teste a proteção de dados sensíveis com seus dados para verificar se ela atende aos requisitos.
Detectores de infoType personalizados
Há três tipos deles:
- Detectores de dicionários personalizados pequenos
- Detectores de dicionários personalizados grandes
- Expressões regulares (regex)
Além disso, a proteção de dados sensíveis inclui regras de inspeção que permitem ajustar os resultados da verificação adicionando as seguintes regras aos detectores atuais:
Detectores de dicionários personalizados pequenos
Use detectores de dicionários personalizados pequenos (também chamados de "detectores de dicionários personalizados regulares") para corresponder a uma lista curta (até várias dezenas de milhares) de palavras ou frases. Um dicionário personalizado pequeno pode atuar como um detector exclusivo próprio.
Os detectores de dicionários personalizados são úteis quando você quer verificar uma lista de palavras ou frases que não são facilmente correspondidas por uma expressão regular ou um detector incorporado. Por exemplo, se você quiser verificar salas de conferência que geralmente são identificadas não por números, mas por nomes, como nomes de estado ou região, pontos de referência, personagens fictícios, entre outros. É possível criar um detector de dicionário personalizado pequeno que contenha uma lista desses nomes de salas. A proteção de dados sensíveis pode verificar seu conteúdo para cada um dos nomes de quarto e retornar uma correspondência quando encontra um deles no contexto. Saiba mais sobre como a proteção de dados sensíveis faz a correspondência de palavras e frases de dicionário na seção Especificações de correspondência de dicionário em Como criar um detector de dicionário personalizado regular.
Para mais detalhes sobre como detectores de infoType personalizados de dicionário pequenos funcionam, bem como para ver exemplos em ação, consulte Como criar um detector de dicionário personalizado regular.
Detectores de dicionários personalizados grandes
Use detectores de dicionários personalizados grandes (também chamados de "detectores de dicionários personalizados armazenados") quando houver mais de algumas palavras ou frases para verificar ou se sua lista de palavras ou frases mudar com frequência. Detectores de dicionários personalizados grandes podem corresponder a até dezenas de milhões de palavras ou frases.
Os detectores de dicionários personalizados grandes são criados de forma diferente dos detectores personalizados de expressões regulares e dos detectores de dicionários personalizados pequenos. Cada dicionário personalizado grande tem dois componentes:
- Uma lista de frases que você cria e define. Essa lista é armazenada como um arquivo de texto no Cloud Storage ou como uma coluna em uma tabela do BigQuery.
- Os arquivos de dicionário gerados, que são criados pela proteção de dados sensíveis com base na sua lista de frases. Os arquivos de dicionário são armazenados no Cloud Storage e compostos por uma cópia dos dados da frase de origem e dos filtros de Bloom, que ajudam na pesquisa e na correspondência. Não é possível editar esses arquivos diretamente.
Depois de criar uma lista de palavras e usar a proteção de dados confidenciais para gerar um dicionário personalizado, inicie ou programe uma verificação usando um detector de dicionário personalizado grande de maneira semelhante a outros detectores de infoType.
Para mais detalhes sobre como os detectores de dicionários personalizados grandes funcionam, bem como exemplos em ação, consulte Como criar um detector de dicionário personalizado armazenado.
Expressões regulares
Um detector de infoType personalizado de expressão regular (regex) permite que você crie seus próprios detectores que permitem que a proteção de dados sensíveis detecte correspondências com base em um padrão de regex. Por exemplo, se você tiver números de registros médicos no formato ###-#-#####
. Será possível definir um padrão de regex como este:
[1-9]{3}-[1-9]{1}-[1-9]{5}
A proteção de dados sensíveis corresponderia a itens como estes:
123-4-56789
Também é possível especificar uma probabilidade a ser atribuída a cada correspondência de infoType personalizada. Ou seja, quando a proteção de dados sensíveis corresponder à sequência especificada, ela atribuirá a probabilidade indicada por você. Isso é
útil porque, se a regex personalizada definir uma sequência comum o suficiente, ela
poderia facilmente corresponder a alguma outra sequência aleatória, e você não vai querer
que a proteção de dados sensíveis rotule todas as correspondências como VERY_LIKELY
. Isso pode reduzir a confiança nos resultados da verificação e, possivelmente, fazer com que as informações incorretas sejam correspondidas ou desidentificadas.
Para mais informações sobre detectores de infoType personalizados de expressões regulares e para vê-los em ação, consulte Como criar um detector de regex personalizado.
Regras de inspeção
Use regras de inspeção para refinar os resultados retornados pelos detectores de infoType atuais, sejam eles incorporados ou personalizados. As regras de inspeção podem ser úteis quando os resultados retornados pela proteção de dados sensíveis precisam ser aumentados, seja adicionando ou excluindo o detector de infoType atual.
Veja a seguir os dois tipos de regras de inspeção:
- Regras de exclusão
- Regras de hotword
Para mais informações sobre regras de inspeção, consulte Como modificar os detectores de InfoType para refinar os resultados da verificação.
Regras de exclusão
As regras de exclusão permitem diminuir a quantidade ou a precisão das descobertas retornadas ao adicionar regras a um detector de infoType integrado ou personalizado. Essas regras podem ajudar a reduzir o ruído ou impedir que resultados indesejados sejam retornados por um detector de infoType.
Por exemplo, se você verificar endereços de e-mail em um banco de dados, poderá adicionar uma regra de exclusão na forma de um regex personalizado que instrui a proteção de dados sensíveis a excluir quaisquer descobertas que terminem em "@example.com".
Para mais informações sobre regras de exclusão, consulte Como modificar os detectores de InfoType para refinar os resultados da verificação.
Regras de hotword
As regras de hotword permitem aumentar a quantidade ou precisão das descobertas retornadas ao adicionar regras a um detector de infoType integrado ou personalizado. As regras de hotword podem ajudá-lo efetivamente a flexibilizar as regras de um detector de infoType atual.
Por exemplo, suponha que você queira verificar nomes de pacientes em um banco de dados médico. É possível usar o detector de infoType PERSON_NAME
integrado da proteção de dados sensíveis, mas isso fará com que a proteção de dados sensíveis corresponda a todos os nomes de pessoas, não apenas aos pacientes. Para corrigir esse problema, inclua uma regra de hotword no formato de um infoType personalizado de regex que procura pela palavra “paciente” dentro de uma determinada proximidade de caracteres do primeiro caractere de possíveis correspondências. Em seguida, é possível atribuir a descobertas correspondentes a esse padrão uma probabilidade de "muito provável", já que elas correspondem aos critérios especiais.
Para mais informações sobre regras de hotword, consulte Como modificar os detectores de InfoType para refinar os resultados da verificação.
Exemplos
Para ter uma ideia melhor de como os infoTypes correspondem às descobertas, observe os seguintes exemplos de correspondência em uma série de dígitos para determinar se eles representam um número de seguro social dos EUA ou um número de identificação de contribuinte individual dos EUA. Lembre-se de que esses exemplos são para detectores de infoType integrados. Ao criar um detector de infoType personalizado, você especifica os critérios que determinam a probabilidade de uma correspondência de verificação.
Exemplo 1
"SSN 222-22-2222"
Informa um alto índice de probabilidade de VERY_LIKELY
para um US_SOCIAL_SECURITY_NUMBER
porque:
- Ele está no formato de número de seguro social padrão, o que aumenta a certeza.
- Ele tem contexto próximo ("SSN") que aumenta tendendo a
US_SOCIAL_SECURITY_NUMBER
.
Exemplo 2
"999-99-9999"
Informa um baixo índice de probabilidade de VERY_UNLIKELY
para um US_SOCIAL_SECURITY_NUMBER
porque:
- Ele está no formato padrão, o que aumenta a certeza.
- Começa com um número 9, o que não é permitido em números de seguro social, reduzindo, assim, a certeza.
- Falta contexto, o que diminui a certeza.
Exemplo 3
"999-98-9999"
Informa um nível de probabilidade de POSSIBLE
para um US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
e VERY_UNLIKELY
para US_SOCIAL_SECURITY_NUMBER
porque:
- Ele tem o formato padrão para
US_SOCIAL_SECURITY_NUMBER
eUS_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
. - Começa com 9 e tem outra verificação de dígitos, o que aumenta a certeza de
US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
. - Falta qualquer contexto, o que diminui a certeza para ambos.
A seguir
A equipe de proteção de dados sensíveis lança novos detectores e grupos de infoType periodicamente. Para saber como ter a lista mais recente de infoTypes integrados, consulte [Como listar detectores de infoType integrados].