Os resultados da digitalização são categorizados com base na probabilidade de representarem alguma correspondência. A proteção de dados confidenciais usa uma representação de probabilidade agrupada por classes, com o objetivo de indicar a probabilidade de uma parte dos dados corresponder a um determinado infoType.
Como a probabilidade funciona
Ao configurar uma verificação da proteção de dados sensíveis, você define os infoTypes que serão verificados. Para restringir os resultados da verificação, defina um nível mínimo de probabilidade na sua solicitação.
A proteção de dados sensíveis atribui um nível de probabilidade para cada possível correspondência (descoberta) detectada durante a verificação. O nível de probabilidade de uma descoberta descreve a probabilidade de ela corresponder a um infoType que você está verificando. Por exemplo, a proteção de dados sensíveis pode atribuir
uma probabilidade de LIKELY
a uma descoberta que se parece com um endereço de e-mail.
Quando a proteção de dados sensíveis retorna os resultados, ela filtra todas as descobertas com uma probabilidade menor do que o nível mínimo de probabilidade definido na solicitação. Por exemplo, se você definir a probabilidade mínima como POSSIBLE
, receberá apenas as descobertas que foram avaliadas como POSSIBLE
, LIKELY
e VERY_LIKELY
. Se você definir a probabilidade mínima como VERY_LIKELY
,
você vai receber o menor número de descobertas.
Níveis de probabilidade
A tabela a seguir lista os possíveis valores de probabilidade que a Proteção de dados sensíveis pode atribuir a uma descoberta.
ENUM | Descrição |
---|---|
VERY_UNLIKELY |
É caracterizada pelas seguintes características:
|
UNLIKELY |
É caracterizada pelas seguintes características:
|
POSSIBLE |
É caracterizada pelas seguintes características:
|
LIKELY |
Caracterizado por um ou mais indicadores fortes para um determinado infoType. Os indicadores podem incluir a aprovação de somas de verificação, fortes dicas contextuais e formatação exclusiva e específica. |
VERY_LIKELY |
Caracterizado por ter muitos sinais fortes para um determinado infoType. Os indicadores podem incluir a aprovação de somas de verificação, fortes dicas contextuais e formatação exclusiva e específica. |
Escolher um nível mínimo de probabilidade para os resultados da verificação
Em geral, quando você define um nível de probabilidade mínimo mais alto na solicitação de proteção de dados sensíveis, os resultados têm um número menor de falsos positivos (às vezes chamados de ruído). No entanto, os resultados também podem excluir mais verdadeiros positivos. A escolha de um nível mínimo de probabilidade envolve encontrar o equilíbrio certo entre recall e precisão.
Por exemplo, suponha que há 10 endereços em um documento e que a proteção de dados sensíveis tenha identificado cinco. No entanto, entre as descobertas identificadas pela proteção de dados sensíveis, há apenas quatro endereços.
- O recall é o número de instâncias de verdadeiros positivos do número total de instâncias relevantes. Neste exemplo, o recall é 4/10.
- A precisão é o número de instâncias de verdadeiros positivos do número total de instâncias que a proteção de dados sensíveis identifica. Neste exemplo, a precisão é de 4/5.
Neste exemplo, a precisão é alta, mas o recall é relativamente baixo.
O nível mínimo de probabilidade definido afeta o nível de recall e de precisão obtido nos resultados da verificação. A tabela a seguir descreve quando cada nível mínimo de probabilidade é útil e como o recall e a precisão variam em cada nível.
Nível mínimo de probabilidade | Descrição |
---|---|
LIKELIHOOD_UNSPECIFIED |
Valor padrão, igual a POSSIBLE . |
VERY_UNLIKELY |
Útil se você precisar de maior recall. Esse nível mínimo de probabilidade gera mais ruído. |
UNLIKELY |
Útil se você precisar de um recall maior. Esse nível mínimo de probabilidade gera ruído. |
POSSIBLE |
Útil quando você quer um equilíbrio entre precisão e recall. |
LIKELY |
Útil se você precisar de uma precisão maior à custa de algum recall. |
VERY_LIKELY |
Útil quando você quer ter a maior precisão com o custo de recall. |
Probabilidade mínima padrão
Se você não definir uma probabilidade mínima na solicitação ou se defini-la como LIKELIHOOD_UNSPECIFIED
, a proteção de dados sensíveis retornará apenas as descobertas com probabilidade de POSSIBLE
ou mais.