Desidentificação de dados

A desidentificação é o processo de remover informações de identificação dos dados. A API Cloud Healthcare detecta dados confidenciais em instâncias DICOM e recursos FHIR, como informações protegidas de saúde (PHI, na sigla em inglês), e usa uma transformação de desidentificação para mascarar, excluir ou ocultar os dados. A desidentificação tem vários casos de uso, incluindo:

  • Ao compartilhar informações de saúde com terceiros sem privilégios
  • Ao criar conjuntos de dados de várias fontes e analisá-los
  • Ao anonimizar dados para que possam ser usados em modelos de machine learning

Visão geral da desidentificação

A desidentificação funciona nos seguintes níveis:

  • No nível do conjunto de dados. A desidentificação ocorre em todos os dados nos armazenamentos DICOM e FHIR no conjunto de dados. Se um conjunto de dados contiver instâncias DICOM e recursos FHIR, desidentifique todas as instâncias e os recursos ao mesmo tempo.

    Para desidentificar dados confidenciais no nível do conjunto de dados, chame o método datasets.deidentify da API Cloud Healthcare.
  • No nível do armazenamento FHIR. A desidentificação ocorre em todos os dados em um armazenamento FHIR específico em um conjunto de dados.

    Para desidentificar dados confidenciais no nível do armazenamento FHIR, chame o método fhirStores.deidentify da API Cloud Healthcare.
  • No nível do armazenamento DICOM. A desidentificação ocorre em todos os dados em um armazenamento DICOM específico em um conjunto de dados.

    Para desidentificar dados confidenciais no nível do armazenamento DICOM, chame o método dicomStores.deidentify da API Cloud Healthcare.

A desidentificação não afeta o conjunto de dados original, o armazenamento FHIR, o armazenamento DICOM ou os dados originais. Dependendo de como você configura a desidentificação, a operação se comporta da seguinte maneira:

  • Se você estiver desidentificando dados no nível do conjunto de dados, as cópias desidentificadas dos dados originais serão gravadas em um novo conjunto de dados chamado conjunto de dados de destino.
  • Se você estiver desidentificando dados no nível do armazenamento DICOM ou FHIR, as cópias desidentificadas dos dados originais serão gravadas em um armazenamento DICOM ou FHIR existente em um conjunto de dados existente. Os armazenamentos DICOM e FHIR de saída são chamados de armazenamento DICOM de destino e armazenamento FHIR de destino, respectivamente.

O conjunto de dados de origem, o armazenamento FHIR ou o armazenamento DICOM e o conjunto de dados de destino, o armazenamento FHIR ou o armazenamento DICOM precisam residir no mesmo local do Google Cloud. Não é possível desidentificar dados em vários projetos do Google Cloud.

Local de desidentificação

Quando a API Cloud Healthcare desidentifica os dados, eles podem ser processados em um local diferente do local onde estão os armazenamentos FHIR ou DICOM de origem e de destino. Após a conclusão da desidentificação, os dados são armazenados no mesmo local do Google Cloud que o repositório FHIR ou o repositório DICOM de origem.

Como desidentificar dados no console do Google Cloud

É possível desidentificar os dados de um conjunto de dados, armazenamento FHIR ou repositório DICOM no console do Google Cloud. Para mais informações, consulte Como desidentificar dados no console do Google Cloud (DICOM) e Como desidentificar dados no console do Google Cloud (FHIR).

Desidentificação DICOM

Uma instância DICOM contém um conjunto de elementos de metadados de chave-valor (conhecidos como tags) e uma ou mais imagens. A operação deidentify pode remover tags específicas que contêm dados confidenciais. A operação também pode usar o reconhecimento automático de caracteres óticos (OCR, na sigla em inglês) para editar texto gravado em imagens contidas em instâncias DICOM.

Para exemplos de como desidentificar dados DICOM, consulte Como desidentificar dados DICOM.

Desidentificação FHIR

Cada recurso FHIR é um objeto semelhante a JSON que contém elementos de chave-valor. Alguns elementos são padronizados, enquanto outros são texto livre. Você pode usar a operação deidentify para alcançar um dos resultados abaixo:

  • Remover valores específicos no recurso

  • Processe as partes de texto arbitrárias para remover apenas as partes confidenciais, deixando o restante dos dados como estão

Para exemplos de como desidentificar dados FHIR, consulte Como desidentificar dados FHIR.