本文档介绍如何在 Google Cloud 中为研究人员、数据科学家和 IT 团队跟踪医疗保健数据的来源和沿袭元数据。
来源和沿袭元数据可帮助医疗保健组织跟踪其临床和运营数据的来源、数据发生的情况以及数据的存储位置。此类跟踪可帮助您的组织在处理医疗保健数据时实现以下目标:
- 遵守组织政策和外部要求。
- 生成可重复、可重现且合理的数据处理工作负载。
来源和沿袭元数据具有许多数据级别,具体取决于用例。本文档介绍三个数据级别,即数据集级别、字段(列)级别和患者记录级别,并展示 Google Cloud 的内置功能如何让您可在这些级别访问和跟踪来源和沿袭元数据。
数据来源
数据来源是数据的来源。跟踪哪个来源生成哪些数据非常重要,尤其是当您将多个数据源协调到一个通用架构时。
当您运行数据质量检查或执行数据剖析时,来源信息也很有用。例如,如果您知道数据的来源,则可以确定数据是否符合您的质量标准,或者是否需要清理数据。
您可以通过多种方式在 Google Cloud 中跟踪来源。例如,您可以使用文件名惯例或文件夹结构,来跟踪任意数据集(如 Cloud Storage 中的数据集)的来源。如果在文件名惯例中定义数据源,您可以使用 Cloud Data Fusion 解析文件名,并将源系统作为结构化数据元素添加到数据集中。这样,下游用户就可按源系统进行过滤,并根据数据来源运行验证检查。例如,系统会将以下文件名结构解析为多个部分:
gs://bucket-name/data-source/data-type/data-name-and-time
在前面的文件名示例中,数据源存储在存储分区中,其中在文件夹子部分中具有特定数据类型。文件名标有数据的名称及其时间戳。系统会在处理过程中解析此文件名惯例,以便将存储分区、文件夹和名称分别作为单独的数据元素添加到最终输出中。
FHIR 来源资源
快速医疗互操作性资源 (FHIR) 规范是一套既定的电子医疗保健信息交换标准,包含用于维护来源信息的资源。
数据沿袭
数据沿袭是指数据在流水线的每个步骤中发生的情况。当您需要重现结果或向第三方提供信息时,跟踪哪些数据发生哪些转型非常重要。Cloud Data Fusion 会在数据集级别和字段级别自动跟踪所有集成数据集的数据沿袭。此数据捕获功能是一个功能强大的工具,用于减少管理沿袭数据的工作负载,以及帮助用户了解数据流水线。
作为全代管式数据集成服务,Cloud Data Fusion 提供了一个图形界面 (GUI),让您可直观地跟踪流水线和数据字段,还提供了一个 API,让您可提取存储在 Cloud Data Fusion 中的沿袭数据。这两个界面让您可使用其他来源或本地沿袭数据来管理整个生态系统中的数据转换。目前,Cloud Data Fusion 支持数据集级别和字段级别的沿袭。
最佳做法
在 Google Cloud 中跟踪来源和沿袭数据的一些最佳做法如下:
- 创建 Cloud Data Fusion 实例时启用 Cloud Logging。此外,还要启用 Cloud Logging 以及 Cloud Healthcare API 和您使用的任何其他云端工具或产品。
- 由于 Cloud Dataflow Fusion 只能跟踪在实例中运行的进程的沿袭,因此请尽可能多地将其用于流水线。如果实例外部(例如,在其他云或本地)发生转换,请确保您已制定最佳做法来跟踪数据。或者,您可以使用开源 Cask Data Application Platform (CDAP) 来捕获信息。
- 在整个组织中同步数据标记和元数据标记,以便所有业务部门都能搜索标记。
后续步骤
- Cloud Data Fusion 文档。
- Google Cloud Marketplace 提供的医疗保健和生命科学解决方案。
- 探索有关 Google Cloud 的参考架构、图表和最佳做法。查看我们的 Cloud Architecture Center。