Probabilidade de correspondência

Os resultados da análise são categorizados com base na probabilidade de representarem uma correspondência. A proteção de dados confidenciais usa uma representação agrupada da probabilidade, que se destina a indicar a probabilidade de um fragmento de dados corresponder a um determinado infoType.

Como funciona a probabilidade

Quando configura uma análise de proteção de dados confidenciais, define os infoTypes que quer que a proteção de dados confidenciais analise. Para restringir os resultados da análise, pode definir um nível de probabilidade mínimo no seu pedido.

Para cada potencial correspondência (descoberta) detetada durante a análise, a proteção de dados confidenciais atribui um nível de probabilidade. O nível de probabilidade de uma descoberta descreve a probabilidade de a descoberta corresponder a um infoType que está a procurar. Por exemplo, a Proteção de dados confidenciais pode atribuir uma probabilidade de LIKELY a uma descoberta que se assemelha a um endereço de email.

Quando a Proteção de dados confidenciais devolve os resultados, filtra todas as descobertas que tenham uma probabilidade inferior ao nível de probabilidade mínimo que definiu no seu pedido. Por exemplo, se definir a probabilidade mínima como POSSIBLE, recebe apenas as conclusões que foram avaliadas como POSSIBLE, LIKELY e VERY_LIKELY. Se definir a probabilidade mínima para VERY_LIKELY, obtém o menor número de resultados.

Níveis de probabilidade

A tabela seguinte apresenta os possíveis valores de probabilidade que a Proteção de dados confidenciais pode atribuir a uma descoberta.

ENUM Descrição
VERY_UNLIKELY Caraterizado pelo seguinte:
  • Um sinal fraco.
  • Ausência de pistas contextuais.
  • Sinais negativos para um determinado infoType.
UNLIKELY Caraterizado pelo seguinte:
  • Um ou mais sinais fracos.
  • Um sinal mais forte para outro infoType.
POSSIBLE Caraterizado pelo seguinte:
  • Um ou mais sinais para um determinado infoType. Os sinais podem incluir a aprovação de somas de verificação.
  • Falta de uma indicação contextual forte e de uma formatação única e específica.
LIKELY Caracterizado por um ou mais sinais fortes para um determinado infoType. Os sinais podem incluir a aprovação de somas de verificação, pistas contextuais fortes e uma formatação única e específica.
VERY_LIKELY Caracterizado por ter muitos sinais fortes para um determinado infoType. Os sinais podem incluir a aprovação de somas de verificação, pistas contextuais fortes e uma formatação única e específica.

Escolher um nível de probabilidade mínimo para os resultados da análise

Em geral, quando define um nível de probabilidade mínimo mais elevado no seu pedido de proteção de dados confidenciais, os resultados têm um número inferior de falsos positivos (por vezes, denominados ruído). No entanto, os resultados também podem excluir mais verdadeiros positivos. A escolha de um nível de probabilidade mínimo envolve encontrar o equilíbrio certo entre a recolha e a precisão.

Por exemplo, suponhamos que existem 10 moradas num documento e a proteção de dados confidenciais identificou 5 moradas. No entanto, entre as conclusões identificadas pela proteção de dados confidenciais, existem apenas 4 moradas.

  • A recolha é o número de instâncias verdadeiramente positivas em relação ao número total de instâncias relevantes. Neste exemplo, a taxa de recolha é de 4/10.
  • A precisão é o número de instâncias verdadeiramente positivas em relação ao número total de instâncias que a proteção de dados confidenciais identifica. Neste exemplo, a precisão é de 4/5.

Neste exemplo, a precisão é elevada, mas a capacidade de identificação é relativamente baixa.

O nível de probabilidade mínimo que define afeta o nível de memorização e precisão que obtém nos resultados da análise. A tabela seguinte descreve quando cada nível de probabilidade mínimo é útil e como a capacidade de recordar e a precisão variam em cada nível.

Nível de probabilidade mínimo Descrição
LIKELIHOOD_UNSPECIFIED Valor predefinido; igual a POSSIBLE.
VERY_UNLIKELY Útil se precisar da maior capacidade de memorização. Este nível de probabilidade mínimo gera o maior ruído.
UNLIKELY Útil se precisar de uma maior capacidade de memorização. Este nível de probabilidade mínimo gera algum ruído.
POSSIBLE Útil se quiser um equilíbrio entre precisão e revocação.
LIKELY Útil se precisar de uma maior precisão à custa de alguma capacidade de identificação.
VERY_LIKELY Útil se quiser a precisão mais elevada à custa da revocação.

Probabilidade mínima predefinida

Se não definir uma probabilidade mínima no seu pedido ou se a definir como LIKELIHOOD_UNSPECIFIED, a proteção de dados confidenciais devolve apenas as descobertas com uma probabilidade de POSSIBLE e superior.