数据去标识化

去标识化是从数据中移除标识信息的过程。 Cloud Healthcare API 会检测 DICOM 实例FHIR 资源中的敏感数据,例如受保护健康信息 (PHI),然后使用去标识化转换来掩码、删除或以其他方式掩码数据。去标识化有多个用例,包括:

  • 与非特权方共享健康信息时
  • 创建来自多个来源的数据集并对其进行分析时
  • 对数据进行匿名化使其可用于机器学习模型时

去标识化概览

去标识化在以下级层可用:

  • 在数据集级层。对数据集内 DICOM 存储区中的所有数据和 FHIR 存储区中的所有数据进行去标识化。如果数据集同时包含 DICOM 实例和 FHIR 资源,您可以同时对所有实例和资源进行去标识化。

    要在数据集级层对敏感数据进行去标识化,请调用 Cloud Healthcare API datasets.deidentify 方法。
  • 在 FHIR 存储区级别。对数据集中特定 FHIR 存储区中的所有数据进行去标识化。

    要在 FHIR 存储区级别对敏感数据进行去标识化,请调用 Cloud Healthcare API fhirStores.deidentify 方法。
  • 在 DICOM 存储区级别。对数据集中特定 DICOM 存储区中的所有数据进行去标识化。

    要对 DICOM 存储区级别的敏感数据进行去标识化,请调用 Cloud Healthcare API dicomStores.deidentify 方法。

去标识化不会影响原始数据集、FHIR 存储区、DICOM 存储区或原始数据。根据配置去标识化的方式,操作如下所示:

  • 如果要在数据集级层对数据进行去标识化,则将原始数据的去标识化副本写入名为目标数据集的新数据集。
  • 如果要在 DICOM 或 FHIR 存储区层级对数据进行去标识化,则将原始数据的去标识化副本写入现有数据集中的现有 DICOM 或 FHIR 存储区。输出 DICOM 存储区和 FHIR 存储区分别称为目标 DICOM 存储区目标 FHIR 存储区

源数据集、FHIR 存储区或 DICOM 存储区以及目标数据集、FHIR 存储区或 DICOM 存储区必须位于同一 Google Cloud 位置。不支持对多个 Google Cloud 位置中的数据进行去标识化。

去标识化位置

当 Cloud Healthcare API 对数据进行去标识化时,数据可能在与来源和目标 FHIR 或 DICOM 存储区位于的不同的位置进行处理。去标识化完成后,数据会存储在与来源 FHIR 存储区或 DICOM 存储区相同的 Google Cloud 位置。

在 Google Cloud 控制台中对数据进行去标识化

您可以在 Google Cloud 控制台中对数据集、FHIR 存储区或 DICOM 存储区的数据进行去标识化。如需了解详情,请参阅在 Google Cloud 控制台中对数据进行去标识化 (DICOM)在 Google Cloud 控制台中对数据进行去标识化 (FHIR)

DICOM 去标识化

DICOM 实例包含一组键值元数据元素(称为“标记”)和一个或多个图片。deidentify 操作可以移除包含敏感数据的特定标记。该操作还可以使用自动光学字符识别 (OCR) 来遮盖 DICOM 实例中包含的图片上的烧屏文字。

有关如何对 DICOM 数据进行去标识化的示例,请参阅对 DICOM 数据进行去标识化

FHIR 去标识化

每个 FHIR 资源都是一个类似 JSON 的对象,包含键值元素。一些元素是标准化的,而另一些则是自由文本。您可以使用 deidentify 操作来实现以下结果之一:

  • 移除资源中的特定值

  • 处理任意文本部分,仅移除敏感部分,其余数据保持原样

有关如何对 FHIR 数据进行去标识化的示例,请参阅对 FHIR 数据进行去标识化