Os resultados da análise são categorizados com base na probabilidade de representarem uma correspondência. A proteção de dados confidenciais usa uma representação agrupada da probabilidade, que se destina a indicar a probabilidade de um fragmento de dados corresponder a um determinado infoType.
Como funciona a probabilidade
Quando configura uma análise de proteção de dados confidenciais, define os infoTypes que quer que a proteção de dados confidenciais analise. Para restringir os resultados da análise, pode definir um nível de probabilidade mínimo no seu pedido.
Para cada potencial correspondência (descoberta) detetada durante a análise, a proteção de dados confidenciais atribui um nível de probabilidade. O nível de probabilidade de uma descoberta descreve a probabilidade de a descoberta corresponder a um infoType que está a procurar. Por exemplo, a Proteção de dados confidenciais pode atribuir uma probabilidade de LIKELY
a uma descoberta que se assemelha a um endereço de email.
Quando a Proteção de dados confidenciais devolve os resultados, filtra todas as
descobertas que tenham uma probabilidade inferior ao nível de probabilidade mínimo que
definiu no seu pedido. Por exemplo, se definir a probabilidade mínima como POSSIBLE
, recebe apenas as conclusões que foram avaliadas como POSSIBLE
, LIKELY
e VERY_LIKELY
. Se definir a probabilidade mínima para VERY_LIKELY
,
obtém o menor número de resultados.
Níveis de probabilidade
A tabela seguinte apresenta os possíveis valores de probabilidade que a Proteção de dados confidenciais pode atribuir a uma descoberta.
ENUM | Descrição |
---|---|
VERY_UNLIKELY |
Caraterizado pelo seguinte:
|
UNLIKELY |
Caraterizado pelo seguinte:
|
POSSIBLE |
Caraterizado pelo seguinte:
|
LIKELY |
Caracterizado por um ou mais sinais fortes para um determinado infoType. Os sinais podem incluir a aprovação de somas de verificação, pistas contextuais fortes e uma formatação única e específica. |
VERY_LIKELY |
Caracterizado por ter muitos sinais fortes para um determinado infoType. Os sinais podem incluir a aprovação de somas de verificação, pistas contextuais fortes e uma formatação única e específica. |
Escolher um nível de probabilidade mínimo para os resultados da análise
Em geral, quando define um nível de probabilidade mínimo mais elevado no seu pedido de proteção de dados confidenciais, os resultados têm um número inferior de falsos positivos (por vezes, denominados ruído). No entanto, os resultados também podem excluir mais verdadeiros positivos. A escolha de um nível de probabilidade mínimo envolve encontrar o equilíbrio certo entre a recolha e a precisão.
Por exemplo, suponhamos que existem 10 moradas num documento e a proteção de dados confidenciais identificou 5 moradas. No entanto, entre as conclusões identificadas pela proteção de dados confidenciais, existem apenas 4 moradas.
- A recolha é o número de instâncias verdadeiramente positivas em relação ao número total de instâncias relevantes. Neste exemplo, a taxa de recolha é de 4/10.
- A precisão é o número de instâncias verdadeiramente positivas em relação ao número total de instâncias que a proteção de dados confidenciais identifica. Neste exemplo, a precisão é de 4/5.
Neste exemplo, a precisão é elevada, mas a capacidade de identificação é relativamente baixa.
O nível de probabilidade mínimo que define afeta o nível de memorização e precisão que obtém nos resultados da análise. A tabela seguinte descreve quando cada nível de probabilidade mínimo é útil e como a capacidade de recordar e a precisão variam em cada nível.
Nível de probabilidade mínimo | Descrição |
---|---|
LIKELIHOOD_UNSPECIFIED |
Valor predefinido; igual a POSSIBLE . |
VERY_UNLIKELY |
Útil se precisar da maior capacidade de memorização. Este nível de probabilidade mínimo gera o maior ruído. |
UNLIKELY |
Útil se precisar de uma maior capacidade de memorização. Este nível de probabilidade mínimo gera algum ruído. |
POSSIBLE |
Útil se quiser um equilíbrio entre precisão e revocação. |
LIKELY |
Útil se precisar de uma maior precisão à custa de alguma capacidade de identificação. |
VERY_LIKELY |
Útil se quiser a precisão mais elevada à custa da revocação. |
Probabilidade mínima predefinida
Se não definir uma probabilidade mínima no seu pedido ou se a definir como
LIKELIHOOD_UNSPECIFIED
, a proteção de dados confidenciais devolve apenas as descobertas com
uma probabilidade de POSSIBLE
e superior.