Transferencia de datos clínicos y operativos con Cloud Data Fusion

En este documento, se explica a los investigadores, científicos de datos y equipos de TI cómo Cloud Data Fusion puede desbloquear datos mediante la transferencia, transformación y almacenamiento de datos en BigQuery, un almacén de datos agregado en Google Cloud.

Las organizaciones de atención médica usan los datos para obtener más casos de uso de estadísticas de atención médica, pero la mayoría de los datos están bloqueados en sistemas aislados. En este documento, se muestra cómo puedes acceder a estos datos con Cloud Data Fusion.

Usa Cloud Data Fusion como servicio de integración de datos

Cloud Data Fusion es un servicio de integración de datos nativo de la nube completamente administrado con una amplia biblioteca de transformaciones de código abierto y más de 100 complementos disponibles que proporcionan una amplia variedad de sistemas y formatos de datos.

Cloud Data Fusion te permite transferir y, también, integrar datos sin procesar de varias fuentes y transformar esos datos. Por ejemplo, puedes usar Cloud Data Fusion para combinar o unir fuentes de datos antes de escribirlas en BigQuery a fin de analizar los datos.

Los datos sin procesar se extraen de fuentes de datos, que pueden tener la forma de bases de datos relacionales, sistemas de archivos, marcos principales y otros sistemas heredados, sistemas de nube pública y Google Cloud. Los destinos de Cloud Data Fusion, también conocidos como receptores, son las ubicaciones en las que se escriben los datos, por ejemplo, Cloud Storage y BigQuery.

Usa Cloud Storage como un data lake

Puedes usar Cloud Storage como el punto de recopilación para los datos que planeas trasladar a la nube y también puedes usarlo como un data lake. Con sus múltiples conectores, Cloud Data Fusion propaga el data lake desde los sistemas locales.

Transfiere tipos de datos clínicos con la API de Cloud Healthcare

La API de Cloud Healthcare proporciona una solución administrada para transferir y almacenar datos de atención médica en Google Cloud y acceder a ellos mediante la creación de un puente crítico entre los sistemas de atención médica y las aplicaciones alojadas en la nube. En la API de Cloud Healthcare, cada almacén de datos con una modalidad específica y su API asociada se ajustan a los estándares actuales. La API de Cloud Healthcare admite los siguientes tipos de datos: Recursos de interoperabilidad para atención médica rápida (FHIR), Imágenes digitales y comunicaciones en medicina (DCOM) y HL7v2. Para obtener más información, consulta Conoce la API de Cloud Healthcare.

Recientemente, las organizaciones de atención médica usan el tipo de datos FHIR para los registros de salud electrónicos (EHR) y los sistemas de atención médica a fin de expandir su capacidad de consultar datos clínicos entre organizaciones. Si tu organización tiene acceso a FHIR, puedes usar la API de Cloud Healthcare a fin de transferir datos de FHIR para cargas masivas de datos clínicos.

La API de Cloud Healthcare admite varias versiones de FHIR. Para obtener más información sobre las versiones y las funciones compatibles, consulta la declaración de conformidad de FHIR.

Cómo transferir otros datos estructurados

En el caso de la integración de otros tipos de datos, los productos de Google Cloud que se describen en este documento pueden manejar formatos de datos estructurados comunes, como CSV, JSON, Avro, ORC y Parquet. Además, Cloud Storage puede transferir cualquier formato de datos como almacenamiento de BLOB. Para obtener más información, consulta cómo cargar datos desde Cloud Storage a BigQuery.

El importador de datos de código abierto sin procesar de BigQuery puede importar datos sin procesar a BigQuery y tiene las siguientes características:

  • Descompresión automática de archivos de entrada, con compatibilidad para una variedad de formatos, incluidos archivos de gzip, LZ4, tar y zip
  • Detección completa del esquema del conjunto de datos
  • Paralelización correcta basada en Dataflow

La herramienta de importación de datos no se limita a los datos del cuidado de la salud. Puedes usar la herramienta a fin de importar cualquier tipo de conjunto de datos en un formato compatible con BigQuery para realizar un análisis más detallado. En la actualidad, la herramienta admite tipos de datos CSV.

Cargar datos

Existen dos formas de cargar datos: incremental y completa. La carga completa inicial consiste en datos de carga por lotes que residen en almacenes de datos locales en el almacén de datos en la nube, BigQuery. Esta carga completa se realiza una sola vez.

Un proceso de carga incremental a menudo se aplica después de la transferencia completa inicial, con el objetivo de mantener los datos en la nube sincronizados con el almacenamiento de datos principal. Las cargas incrementales pueden tomar la forma de volcados periódicos de bases de datos o transmisiones en tiempo real. Para actualizaciones periódicas, puedes cargar un lote de actualizaciones de bases de datos en Cloud Storage y, luego, incorporar las actualizaciones en el almacén de datos en la nube. Para actualizaciones en tiempo real, puedes configurar la replicación de la base de datos en tiempo real mediante bases de datos de procesamiento de transacciones en línea (OLTP) o protocolos de mensajería, como la transmisión de HL7v2. Si deseas obtener más información, consulta opciones para la transferencia de datos en la nube.

Cómo transferir conjuntos de datos grandes

Para transferir grandes conjuntos de datos a Google Cloud, debes tener en cuenta la duración, el costo y la complejidad de la transferencia. Si deseas obtener más información, consulta las estrategias para transferir conjuntos de datos grandes.

Ciclo de vida de los datos

La transferencia de datos es solo el primer paso en el ciclo de vida de los datos. Google Cloud proporciona tecnologías a lo largo del ciclo de vida de los datos, incluidos la transferencia, el almacenamiento, el análisis y la visualización.

¿Qué sigue?