Probabilidade de correspondência

Os resultados da digitalização são categorizados com base na probabilidade de representarem alguma correspondência. A Proteção de dados sensíveis usa uma representação de probabilidade agrupada por classes, com o objetivo de indicar a probabilidade de uma parte dos dados corresponder a determinado infoType.

Como a probabilidade funciona

Ao configurar uma verificação de proteção de dados sensíveis, você define os infoTypes que quer que ela verifique. Para restringir os resultados da verificação, defina um nível mínimo de probabilidade na solicitação.

Para cada possível correspondência (encontrado) detectada durante a verificação, a Proteção de dados confidenciais atribui um nível de probabilidade. O nível de probabilidade de uma descoberta descreve a chance de ela corresponder a um infoType que você está procurando. Por exemplo, a Proteção de dados sensíveis pode atribuir uma probabilidade de LIKELY a uma descoberta que se parece com um endereço de e-mail.

Quando a Proteção de Dados Sensíveis retorna os resultados, ela filtra todas as descobertas com uma probabilidade menor do que o nível mínimo definido na solicitação. Por exemplo, se você definir a probabilidade mínima como POSSIBLE, vai receber apenas as descobertas que foram avaliadas como POSSIBLE, LIKELY e VERY_LIKELY. Se você definir a probabilidade mínima como VERY_LIKELY, vai receber o menor número de descobertas.

Níveis de probabilidade

A tabela a seguir lista os possíveis valores de probabilidade que a Proteção de dados sensíveis pode atribuir a uma descoberta.

ENUM Descrição
VERY_UNLIKELY Caracterizado por:
  • Um sinal fraco.
  • Ausência de dicas contextuais.
  • Indicadores negativos para um determinado infoType.
UNLIKELY Caracterizado pelo seguinte:
  • Um ou mais sinais fracos.
  • Um indicador mais forte para outro infoType.
POSSIBLE Caracterizado pelo seguinte:
  • Um ou mais indicadores para um determinado infoType. Os sinais podem incluir verificações de soma.
  • Falta de uma dica contextual forte e formatação específica e única.
LIKELY Caracterizado por um ou mais indicadores fortes para um determinado infoType. Os indicadores podem incluir somas de verificação, dicas contextuais fortes e formatação específica e exclusiva.
VERY_LIKELY Caracterizado por ter muitos indicadores fortes para um determinado infoType. Os indicadores podem incluir somas de verificação, dicas contextuais fortes e formatação específica e exclusiva.

Como escolher um nível mínimo de probabilidade para os resultados da verificação

Em geral, quando você define um nível mínimo de probabilidade mais alto na solicitação de Proteção de Dados Sensíveis, os resultados têm um número menor de falsos positivos (às vezes chamado de ruído). No entanto, os resultados também podem excluir mais verdadeiros positivos. A escolha de um nível mínimo de probabilidade envolve encontrar o equilíbrio certo entre recall e precisão.

Por exemplo, suponha que haja 10 endereços em um documento e que a Proteção de dados sensíveis tenha identificado cinco deles. No entanto, entre as descobertas identificadas pela Proteção de dados sensíveis, há apenas quatro endereços.

  • O recall é o número de instâncias de verdadeiro positivo em relação ao número total de instâncias relevantes. Neste exemplo, o recall é 4/10.
  • A precisão é o número de instâncias de verdadeiro positivo em relação ao número total de instâncias identificadas pela Proteção de dados sensíveis. Neste exemplo, a precisão é 4/5.

Nesse exemplo, a precisão é alta, mas o recall é relativamente baixo.

O nível mínimo de probabilidade definido afeta o nível de recuperação e precisão que você recebe nos resultados da verificação. A tabela a seguir descreve quando cada nível mínimo de probabilidade é útil e como a precisão e a recuperação variam em cada nível.

Nível mínimo de probabilidade Descrição
LIKELIHOOD_UNSPECIFIED Valor padrão, o mesmo que POSSIBLE.
VERY_UNLIKELY Útil se você precisar da maior recuperação. Esse nível mínimo de probabilidade gera mais ruído.
UNLIKELY Útil se você precisar de uma recuperação maior. Esse nível mínimo de probabilidade gera algum ruído.
POSSIBLE Útil se você quiser um equilíbrio entre precisão e recall.
LIKELY Útil se você precisar de uma precisão maior em detrimento de um pouco de recuperação.
VERY_LIKELY Útil se você quiser a maior precisão possível, mesmo que isso signifique perder o recall.

Probabilidade mínima padrão

Se você não definir uma probabilidade mínima na solicitação ou se definir como LIKELIHOOD_UNSPECIFIED, a Proteção de Dados Sensíveis vai retornar apenas as descobertas com uma probabilidade de POSSIBLE ou mais.