O Cloud Data Loss Prevention (Cloud DLP) agora faz parte da Proteção de dados confidenciais. O nome da API continua o mesmo: API Cloud Data Loss Prevention (API DLP). Saiba mais sobre os serviços que fazem parte da Proteção de dados confidenciais.

Classificação, edição e desidentificação

A proteção de dados sensíveis ajuda você a entender, gerenciar e proteger dados sensíveis. Com a proteção de dados sensíveis, é possível classificar e editar facilmente dados sensíveis contidos em conteúdo e imagens baseados em texto, incluindo o conteúdo armazenado em repositórios de armazenamento do Google Cloud.

Classificação de texto

Considere a seguinte entrada de texto:

Please update my records with the following information:
Email address: foo@example.com

National Provider Identifier: 1245319599

Driver's license: AC333991

O resultado é uma lista de descobertas, organizadas nas seguintes categorias:

InfoType
Likelihood
Offset (em que, na string, o InfoType potencial foi encontrado)

O exemplo de resultado é mostrado na tabela abaixo.

`InfoType`	`Likelihood`	`Offset`
`US_HEALTHCARE_NPI`	`VERY_LIKELY`	`122`
`EMAIL_ADDRESS`	`LIKELY`	`72`
`US_DRIVERS_LICENSE_NUMBER`	`LIKELY`	`155`
`CANADA_BC_PHN`	`VERY_UNLIKELY`	`122`
`UK_TAXPAYER_REFERENCE`	`VERY_UNLIKELY`	`122`
`CANADA_PASSPORT`	`VERY_UNLIKELY`	`155`

Edição automática de texto

A edição automática produz um resultado com correspondências de dados confidenciais removidas, em vez de oferecer uma lista de descobertas.

Exemplo de entrada de edição de automação:

Please update my records with the following information:
Email address: foo@example.com

National Provider Identifier: 1245319599

Driver's license: AC333991

Exemplo de resultado usando um marcador de posição de "***":

Please update my records with the following information:
Email address: ***

National Provider Identifier: ***

Driver's license: ***

Classificação de imagens

A proteção de dados sensíveis usa a tecnologia de reconhecimento óptico de caracteres (OCR) para identificar o texto antes da classificação. Semelhante à classificação de texto, ela retorna descobertas, mas também adiciona uma caixa delimitadora onde o texto foi encontrado.

Classificação de armazenamento

A classificação de armazenamento verifica os dados armazenados no Cloud Storage, no Firestore no modo Datastore (Datastore) e no BigQuery. Em vez de fazer streaming de dados para a proteção de dados sensíveis, especifique na solicitação o local de armazenamento do bucket do Cloud Storage, o tipo do Datastore ou a tabela do BigQuery que você quer que a proteção de dados sensíveis verifique.

Ao verificar arquivos em locais do Cloud Storage, a proteção de dados sensíveis aceita a verificação de arquivos binários, de texto, de imagem, do Microsoft Word, do Microsoft Excel, do Microsoft Powerpoint, de PDF e do Apache Avro. Uma lista de extensões dos tipos de arquivo no Cloud Storage que a proteção de dados sensíveis pode verificar está disponível na página de referência da API para FileType. Os arquivos de tipos não reconhecidos são verificados como arquivos binários.

Os resultados da verificação podem ser salvos em uma nova tabela do BigQuery ou publicados em um tópico do Pub/Sub. Depois disso, é possível usar ferramentas integradas do BigQuery para executar análises avançadas de SQL ou ferramentas como o Looker Studio para gerar relatórios.

Para mais informações sobre como verificar dados confidenciais em repositórios de armazenamento usando a proteção de dados confidenciais, consulte Como inspecionar dados confidenciais em armazenamento e bancos de dados.

Para mais informações sobre como visualizar os resultados da verificação usando outras ferramentas do Google Cloud, consulte Como analisar e gerar relatórios sobre descobertas da proteção de dados confidenciais.

A seguir

Saiba mais sobre inspeção e edição de imagens.
Saiba mais sobre os métodos de transformação que podem ser usados com a proteção de dados sensíveis.
Trabalhe no codelab Como encobrir dados sensíveis com a proteção de dados sensíveis.
Saiba mais sobre como criar uma cópia desidentificada dos dados no armazenamento.