Seguimiento de los metadatos de procedencia y linaje para datos de atención médica

En este documento, se describe cómo realizar un seguimiento de los metadatos de origen y de linaje para los datos de atención médica en Google Cloud para investigadores, científicos de datos y equipos de TI.

Los metadatos de procedencia y linaje pueden ayudar a las organizaciones de atención médica a hacer seguimientos de la procedencia de sus datos clínicos y operativos, qué sucede con los datos y dónde se almacenan. Este seguimiento puede ayudar a tu organización a alcanzar los siguientes objetivos cuando se trabaja con datos de atención médica:

  • Cumplir con las políticas de la organización y los requisitos externos
  • Producir cargas de trabajo de procesamiento de datos repetibles, reproducibles y verificables

Los metadatos de procedencia y linaje tienen muchos niveles de datos, según el caso de uso. En este documento, se abarcan tres niveles de datos (nivel de conjunto de datos, nivel de campo [columna] y nivel de registro de pacientes) y se muestra cómo las funciones integradas de Google Cloud te permiten acceder y hacer seguimientos de los metadatos de linaje y procedencia en estos niveles.

Procedencia de los datos

La procedencia de los datos es el origen de tus datos. Es importante realizar un seguimiento de las fuentes que generan los datos, en especial, si estás correlacionando varias fuentes de datos a un esquema común. Para obtener más información, consulta Transforma y armoniza datos para BigQuery.

La información de procedencia también es útil cuando ejecutas comprobaciones de calidad de los datos o realizas perfiles de datos. Por ejemplo, si conoces el origen de los datos, puedes decidir si los datos cumplen con tus estándares de calidad o si es necesario limpiarlos.

Hay varias formas de realizar un seguimiento de la procedencia en Google Cloud. Por ejemplo, puedes realizar un seguimiento de la procedencia de los conjuntos de datos arbitrarios, como los de Cloud Storage, mediante una convención de nombre de archivo o una estructura de carpeta. Si la fuente de datos se define en la convención de nombre de archivo, puedes usar Cloud Data Fusion para analizar el nombre de archivo y agregar el sistema de origen como un elemento de datos estructurados al conjunto de datos. Esto permite que los usuarios posteriores filtren por sistema de origen y ejecuten verificaciones de validación según la procedencia de los datos. Por ejemplo, la siguiente estructura de nombre de archivo se analiza en varias secciones:

gs://bucket-name/data-source/data-type/data-name-and-time

En el ejemplo de nombre de archivo anterior, la fuente de datos se almacena en un bucket, con el tipo de datos específico en una subsección de la carpeta. El nombre del archivo se etiqueta según el nombre de los datos y su marca de tiempo. Esta convención de nombre de archivo se analiza durante el procesamiento, de modo que el bucket, la carpeta y el nombre se puedan agregar como elementos de datos separados en el resultado final.

Recurso de procedencia de FHIR

La especificación de recursos de interoperabilidad para atención médica (FHIR), un estándar establecido para intercambiar información de atención médica de manera electrónica, incluye un recurso para mantener la información de procedencia. Si usas las herramientas de Google Cloud para las transformaciones estructurales, puedes usar el recurso de procedencia de FHIR para hacer un seguimiento de las transformaciones y asignaciones estructurales. Cada elemento que mapeas genera un recurso de procedencia, independientemente de la cantidad de recursos FHIR que produzca. Este recurso te permite realizar un seguimiento del linaje a nivel de los registros de los pacientes.

Linaje de datos

El linaje de datos es lo que sucede con los datos en cada paso de la canalización. Es importante realizar un seguimiento de lo que sucede con las transformaciones en caso de que necesites reproducir el resultado o proporcionar información a un tercero. Cloud Data Fusion hace un seguimiento automático del linaje de datos para todos los conjuntos de datos integrados a nivel de conjunto de datos y de campo. Esta funcionalidad de captura de datos es una herramienta potente que permite reducir la carga de trabajo para administrar datos de linaje y ayudar a los usuarios a comprender las canalizaciones de datos.

Como un servicio de integración de datos completamente administrado, Cloud Data Fusion proporciona una interfaz gráfica de usuario (GUI) que te permite rastrear visualmente los campos de datos y las canalizaciones, y una API que te permite extraer los datos de linaje almacenados en Cloud Data Fusion. Estas dos interfaces te permiten trabajar con otras fuentes o datos locales de linaje para administrar las transformaciones de datos en todo el ecosistema. En la actualidad, Cloud Data Fusion admite linaje a nivel de conjunto de datos y de campo.

Recomendaciones

A continuación, se presentan algunas prácticas recomendadas para realizar un seguimiento de los datos de procedencia y linaje en Google Cloud:

  • Habilita Cloud Logging cuando crees una instancia de Cloud Data Fusion. Habilita también Cloud Logging con la API de Cloud Healthcare y con cualquier herramienta o producto adicional basado en la nube que uses.
  • Usa Cloud Data Fusion para abarcar lo más que puedas de tu canalización, ya que puede hacer un seguimiento del linaje solo para los procesos que se ejecutan dentro de la instancia. Si hay transformaciones que ocurren fuera de la instancia, por ejemplo, en una nube diferente o local, asegúrate de tener prácticas recomendadas para realizar un seguimiento de los datos. Como alternativa, puedes usar Cask Data Application Platform (CDAP) de código abierto para capturar información.
  • Sincroniza las etiquetas de datos y las etiquetas de metadatos en toda tu organización para que las etiquetas se puedan buscar en las unidades de negocio.

¿Qué sigue?