A Proteção de dados confidenciais usa tipos de informações, ou infoTypes, para definir o que procura. Um infoType é um tipo de dados confidenciais, como um nome, um endereço de email, um número de telefone, um número de identificação, um número de cartão de crédito, etc.
Cada infoType definido na proteção de dados confidenciais tem um detetor correspondente. A proteção de dados confidenciais usa detetores infoType na configuração para as respetivas análises para determinar o que inspecionar e como transformar as conclusões. Os nomes dos InfoTypes também são usados quando são apresentados ou comunicados os resultados da análise.
Este tópico descreve os infoTypes e os detetores de infoTypes em detalhe, e fornece orientações sobre como usar os detetores de infoTypes ao analisar conteúdo em busca de dados confidenciais com a proteção de dados confidenciais.
Especificar detetores infoType
Quando configura a Proteção de dados confidenciais para analisar o seu conteúdo, inclui os detetores infoType a usar na configuração da análise.
Por exemplo, o JSON seguinte demonstra um pedido de análise simples à API DLP. Tenha em atenção que o detetor PHONE_NUMBER
é especificado em
inspectConfig
,
o que indica à proteção de dados confidenciais que analise a string fornecida para encontrar um
número de telefone.
POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}
{
"item":{
"value":"My phone number is (415) 555-0890"
},
"inspectConfig":{
"includeQuote":true,
"minLikelihood":"POSSIBLE",
"infoTypes":{
"name":"PHONE_NUMBER"
}
}
}
O pedido anterior devolve o seguinte:
{
"result":{
"findings":[
{
"quote":"(415) 555-0890",
"infoType":{
"name":"PHONE_NUMBER"
},
"likelihood":"VERY_LIKELY",
"location":{
"byteRange":{
"start":"19",
"end":"33"
},
"codepointRange":{
"start":"19",
"end":"33"
}
},
"createTime":"2018-10-29T23:46:34.535Z"
}
]
}
}
Especifique sempre infoTypes na configuração da procura. Se não especificar nenhum infoType, a proteção de dados confidenciais usa uma lista de infoTypes predefinida. Consoante a quantidade de conteúdo a analisar, a análise de infoTypes predefinidos pode ser proibitivamente demorada ou dispendiosa.
Para mais informações sobre como usar detetores de infoType para analisar o seu conteúdo, consulte um dos tópicos de instruções sobre inspeção, ocultação ou remoção de identificação.
Tipos de detetores infoType
Os detetores de tipo de informações (ou "infoType") são os mecanismos que a proteção de dados confidenciais usa para encontrar dados confidenciais.
A proteção de dados confidenciais inclui vários tipos de detetores infoType, todos resumidos aqui:
- Os detetores de infoType integrados estão integrados na proteção de dados confidenciais. Incluem detetores para tipos de dados confidenciais específicos de um país ou uma região, bem como tipos de dados aplicáveis a nível global.
- Os detetores infoType personalizados são detetores que cria
por si. Existem três tipos de detetores de infoTypes personalizados:
- Os detetores de dicionários personalizados normais são listas de palavras simples com as quais a proteção de dados confidenciais estabelece correspondência. Use detetores de dicionários personalizados normais quando tiver uma lista de até várias dezenas de milhares de palavras ou expressões. Os detetores de dicionários personalizados normais são preferíveis se não previr alterações significativas na sua lista de palavras.
- Os detetores de dicionários personalizados armazenados são gerados pela proteção de dados confidenciais através de grandes listas de palavras ou expressões armazenadas no Cloud Storage ou no BigQuery. Use detetores de dicionários personalizados armazenados quando tiver uma grande lista de palavras ou expressões, até dezenas de milhões.
- Os detetores de expressões regulares (regex) permitem que a proteção de dados confidenciais detete correspondências com base num padrão de expressão regular.
Além disso, a Proteção de dados confidenciais inclui o conceito de regras de inspeção, que lhe permitem otimizar os resultados da análise através do seguinte:
- As regras de exclusão permitem-lhe diminuir o número de resultados devolvidos adicionando regras a um detetor de infoType incorporado ou personalizado.
- As regras de palavras-chave permitem aumentar a quantidade ou alterar o valor de probabilidade dos resultados devolvidos adicionando regras a um detetor de infoType integrado ou personalizado.
Detetores infoType incorporados
Os detetores infoType incorporados estão integrados na Proteção de dados confidenciais e
incluem detetores para tipos de dados confidenciais específicos de países ou regiões, como
o Numéro d'Inscription au Répertoire (NIR) francês (FRANCE_NIR
), o número da carta de condução
do Reino Unido (UK_DRIVERS_LICENSE_NUMBER
) e o número de segurança social
dos EUA (US_SOCIAL_SECURITY_NUMBER
). Também incluem tipos de dados
aplicáveis globalmente, como o nome de uma pessoa (PERSON_NAME
), números de telefone (PHONE_NUMBER
),
endereços de email (EMAIL_ADDRESS
) e números de cartões de crédito
(CREDIT_CARD_NUMBER
).Para detetar conteúdo que corresponde a infoTypes,
a Proteção de dados confidenciais tira partido de várias técnicas, incluindo a correspondência de padrões, as somas de verificação, a aprendizagem automática, a análise de contexto e outras.
A lista de detetores de infoType incorporados está sempre a ser atualizada. Para uma lista completa dos detetores de infoType incorporados atualmente suportados, consulte a referência do detetor de infoType.
Também pode ver uma lista completa de todos os detetores infoType incorporados chamando o método infoTypes.list
do Google Cloud DLP.
Detetores infoType personalizados
Existem três tipos de detetores de infoType personalizados:
- Detetores de dicionários personalizados normais
- Detetores de dicionários personalizados armazenados
- Expressões regulares (regex)
Além disso, a proteção de dados confidenciais inclui regras de inspeção, que lhe permitem ajustar os resultados da análise detalhada adicionando o seguinte aos detetores existentes:
Detetores de dicionários personalizados normais
Use detetores de dicionários personalizados normais para fazer corresponder uma pequena lista (até várias dezenas de milhares) de palavras ou expressões. Um dicionário personalizado normal pode atuar como o seu próprio detetor exclusivo.
Os detetores de dicionários personalizados são úteis quando quer procurar uma lista de palavras ou expressões que não são facilmente correspondidas por uma expressão regular ou um detetor incorporado. Por exemplo, suponha que quer procurar salas de conferências que são normalmente referidas pelos respetivos nomes atribuídos em vez dos respetivos números, como nomes de estados ou regiões, pontos de referência, personagens fictícias, etc. Pode criar um detetor de dicionário personalizado normal que contenha uma lista destes nomes de divisões. A Proteção de dados confidenciais pode analisar o seu conteúdo para cada um dos nomes das divisões e devolver uma correspondência quando encontrar um deles no contexto. Saiba como a proteção de dados confidenciais faz a correspondência com palavras e expressões do dicionário na secção "Especificidades da correspondência com o dicionário" do artigo Criar um detetor de dicionário personalizado normal.
Para mais detalhes sobre como funcionam os detetores de infoType personalizados de dicionário normal, bem como exemplos em ação, consulte o artigo Criar um detetor de dicionário personalizado normal.
Detetores de dicionário personalizado armazenados
Use detetores de dicionários personalizados armazenados quando tiver mais do que algumas palavras ou expressões para procurar, ou se a sua lista de palavras ou expressões mudar com frequência. Os detetores de dicionários personalizados armazenados podem corresponder a dezenas de milhões de palavras ou expressões.
Os detetores de dicionários personalizados armazenados, pela sua natureza de detetores personalizados muito grandes, são criados de forma diferente dos detetores personalizados de expressões regulares e dos detetores de dicionários personalizados normais. Cada dicionário personalizado armazenado tem dois componentes:
- Uma lista de expressões que cria e define. A lista é armazenada como um ficheiro de texto no Cloud Storage ou uma coluna numa tabela do BigQuery.
- Os ficheiros de dicionário gerados, que são criados pela proteção de dados confidenciais com base na sua lista de expressões. Os ficheiros de dicionário são armazenados no Cloud Storage e são compostos por uma cópia dos dados de frases de origem, além de filtros de Bloom, que ajudam na pesquisa e na correspondência. Não pode editar estes ficheiros diretamente.
Depois de criar uma lista de palavras e, em seguida, usar a proteção de dados confidenciais para gerar um dicionário personalizado, inicia ou agenda uma análise com um detetor de dicionário personalizado armazenado de forma semelhante a outros detetores infoType.
Para mais detalhes sobre como funcionam os detetores de dicionários personalizados armazenados, bem como exemplos em ação, consulte o artigo Criar um detetor de dicionário personalizado armazenado.
Expressões regulares
Um detetor de infoType personalizado de expressão regular (regex) permite-lhe criar os seus
próprios detetores de infoType que permitem à proteção de dados confidenciais detetar
correspondências com base num padrão de regex. Por exemplo, suponha que tinha números de registos médicos no formato ###-#-#####
. Pode definir um padrão de regex, como o seguinte:
[1-9]{3}-[1-9]{1}-[1-9]{5}
A proteção de dados confidenciais faria então a correspondência de itens como este:
123-4-56789
Também pode especificar uma probabilidade a atribuir a cada correspondência de infoType personalizado. Ou seja, quando a proteção de dados confidenciais encontra uma correspondência com a sequência especificada, atribui a probabilidade que indicou.
Isto é útil porque, se a sua regex personalizada definir uma sequência suficientemente comum, pode facilmente corresponder a outra sequência aleatória. Não quer que a proteção de dados confidenciais etiquete todas as correspondências como VERY_LIKELY
. Se o fizesse, a confiança nos resultados da análise seria
afetada e as informações erradas poderiam ser anonimizadas.
Para mais informações sobre detetores de infoTypes personalizados de expressões regulares e para os ver em ação, consulte o artigo Criar um detetor de regex personalizado.
Regras de inspeção
Usa regras de inspeção para refinar os resultados devolvidos pelos detetores infoType existentes, sejam eles incorporados ou personalizados. As regras de inspeção podem ser úteis para casos em que os resultados devolvidos pela proteção de dados confidenciais precisam de ser aumentados de alguma forma, quer adicionando quer excluindo do detetor de infoType existente.
Os dois tipos de regras de inspeção são:
- Regras de exclusão
- Regras de hotword
Para mais informações sobre as regras de inspeção, consulte o artigo Modificar os detetores de InfoType para refinar os resultados da análise.
Regras de exclusão
As regras de exclusão permitem-lhe diminuir a quantidade ou a precisão dos resultados devolvidos adicionando regras a um detetor infoType integrado ou personalizado. As regras de exclusão podem ajudar a reduzir o ruído ou outras descobertas indesejadas que são devolvidas por um detetor infoType.
Por exemplo, se analisar uma base de dados para encontrar endereços de email, pode adicionar uma regra de exclusão sob a forma de uma regex personalizada que instrua a Proteção de dados confidenciais a excluir todas as descobertas que terminem em "@example.com".
As regras de exclusão não podem ser aplicadas a infoTypes de objetos.
Para mais informações sobre as regras de exclusão, consulte o artigo Modificar os detetores de InfoType para refinar os resultados da análise.
Regras de hotword
As regras de palavras de ativação permitem-lhe aumentar a quantidade ou a precisão dos resultados devolvidos adicionando regras a um detetor de infoType integrado ou personalizado. As regras de palavras de ativação podem ajudar a afrouxar eficazmente as regras de um detetor de infoType existente.
Por exemplo, suponha que quer analisar uma base de dados médica para encontrar nomes de pacientes. Pode usar o detetor de PERSON_NAME
infoType
integrado da proteção de dados confidenciais, mas isso faz com que a proteção de dados confidenciais encontre correspondências em todos os
nomes de pessoas, não apenas nos nomes de pacientes. Para corrigir este problema, pode incluir uma regra de palavra de ativação no formato de um infoType personalizado de regex que procure a palavra "paciente" dentro de uma determinada proximidade de carateres do primeiro caráter de potenciais correspondências. Em seguida, pode atribuir às descobertas que correspondam a este padrão uma
probabilidade de "muito provável", uma vez que correspondem aos seus critérios especiais.
Para mais informações sobre as regras de palavras de ativação, consulte o artigo Modificar os detetores de InfoType para refinar os resultados da análise.