对敏感数据进行去标识化

去标识化是从数据中移除标识信息的过程。 Cloud Healthcare API 会检测 DICOM 实例FHIR 资源中的敏感数据,例如受保护健康信息 (PHI),然后使用去标识化转换来掩码、删除或以其他方式掩码数据。去标识化有多个用例,包括:

  • 与非特权方共享健康信息时
  • 创建来自多个来源的数据集并对其进行分析时
  • 对数据进行匿名化使其可用于机器学习模型时

去标识化概览

去标识化在以下级层可用:

  • 在数据集级层。对数据集内 DICOM 存储区中的所有数据和 FHIR 存储区中的所有数据进行去标识化。如果数据集同时包含 DICOM 实例和 FHIR 资源,您可以同时对所有实例和资源进行去标识化。

    要在数据集级层对敏感数据进行去标识化,请调用 Cloud Healthcare API datasets.deidentify 方法。
  • 在 FHIR 存储区级别。对数据集中特定 FHIR 存储区中的所有数据进行去标识化。

    要在 FHIR 存储区级别对敏感数据进行去标识化,请调用 Cloud Healthcare API fhirStores.deidentify 方法。
  • 在 DICOM 存储区级别。对数据集中特定 DICOM 存储区中的所有数据进行去标识化。

    要对 DICOM 存储区级别的敏感数据进行去标识化,请调用 Cloud Healthcare API dicomStores.deidentify 方法。

去标识化不会影响原始数据集、FHIR 存储区、DICOM 存储区或原始数据。根据配置去标识化的方式,操作如下所示:

  • 如果要在数据集级层对数据进行去标识化,则将原始数据的去标识化副本写入名为目标数据集的新数据集。
  • 如果要在 DICOM 或 FHIR 存储区层级对数据进行去标识化,则将原始数据的去标识化副本写入现有数据集中的现有 DICOM 或 FHIR 存储区。输出 DICOM 存储区和 FHIR 存储区分别称为目标 DICOM 存储区目标 FHIR 存储区

源数据集、FHIR 存储区或 DICOM 存储区以及目标数据集、FHIR 存储区或 DICOM 存储区必须位于同一 Google Cloud 位置。不支持对多个 Google Cloud 位置中的数据进行去标识化。

去标识化位置

当 Cloud Healthcare API 对数据进行去标识化时,处理数据的位置可能与源和目标 FHIR 或 DICOM 存储区所在的位置不同。 去标识化完成后,数据存储在与源 FHIR 存储区或 DICOM 存储区相同的 Google Cloud 位置中。

在控制台中对数据进行去标识化

您可以在控制台中对数据集、FHIR 存储区或 DICOM 存储区的数据进行去标识化。如需了解详情,请参阅在控制台中对数据进行去标识化 (DICOM)在控制台中对数据进行去标识化 (FHIR)