使用 Cloud Data Fusion 注入临床数据和运营数据

本文档向研究人员、数据科学家和 IT 团队介绍 Cloud Data Fusion 如何通过注入、转换数据和将数据存储到 BigQuery(Google Cloud 上的汇总数据仓库)来解锁数据。

医疗保健组织依靠数据来推动医疗保健分析用例,但大部分数据都被封锁在孤岛系统中。本文档介绍如何使用 Cloud Data Fusion 来访问这些数据。

将 Cloud Data Fusion 作为数据集成服务

Cloud Data Fusion 是一项全代管式云原生数据集成服务,包含庞大的开源转换库以及 100 多个可用插件,可提供丰富的系统和数据格式。

借助 Cloud Data Fusion,您可以注入和集成来自各种来源的原始数据并转换这些数据。例如,您可以使用 Cloud Data Fusion 混合或联接数据源,然后再向 BigQuery 写入数据以进行分析。

原始数据来自数据源,这些数据源可以是关系型数据库、文件系统、大型机和其他旧系统、公共云系统和 Google Cloud。Cloud Data Fusion 目标(也称为接收器)是写入数据的位置,例如 Cloud Storage 和 BigQuery。

将 Cloud Storage 作为数据湖

您可以将 Cloud Storage 用作计划迁移到云端的数据的收集点,还可以将其用作数据湖。Cloud Data Fusion 提供众多连接器,可从本地系统填充数据湖。

使用 Cloud Healthcare API 注入临床数据类型

Cloud Healthcare API 提供了一个用于在 Google Cloud 上注入、存储和访问医疗保健数据的代管式解决方案,在现有的医疗保健系统与云端托管的应用之间搭建了一座重要桥梁。在 Cloud Healthcare API 中,每个特定于模态的数据存储区及其关联的 API 均符合当前标准。Cloud Healthcare API 支持快速医疗互操作性资源 (FHIR)HL7v2医学数字成像和通信 (DICOM) 数据类型。如需了解详情,请参阅了解 Cloud Healthcare API

近年来,医疗保健组织一直在将 FHIR 数据类型用于电子健康记录 (EHR) 和医疗保健系统,以扩展其查询各组织临床数据的能力。如果您的组织可以访问 FHIR,您可以使用 Cloud Healthcare API 注入用于批量上传医疗数据的 FHIR 数据。

Cloud Healthcare API 支持多个版本的 FHIR。如需详细了解受支持的版本和功能,请参阅 FHIR 一致性声明

注入其他结构化数据

为了提供扩展的数据集成能力,本文档讨论的 Google Cloud 产品可以处理 CSV、JSON、Avro、ORC 和 Parquet 等常见的结构化数据格式。此外,Cloud Storage 可以将任意数据格式注入为 Blob 存储。如需了解详情,请参阅如何从 Cloud Storage 将数据加载到 BigQuery

BigQuery 的开源原始数据导入工具可以将原始数据导入到 BigQuery 中,并且具有以下功能:

  • 自动解压缩输入文件,支持 gzip、LZ4、tar、zip 等各种文件格式
  • 完整数据集架构检测
  • 基于 Dataflow 构建的适当并行化

数据导入工具不限于医疗保健数据。您可以使用该工具将受支持格式的任何数据集导入到 BigQuery 中进行进一步分析。目前,该工具支持 CSV 数据类型。

加载数据

数据加载有两种形式:完整和增量。初始完整加载会将本地数据仓库中的数据批量加载到云端数据仓库 BigQuery。此完整加载仅执行一次。

增量加载过程通常会遵循初始完整注入,旨在使云端数据与主数据存储保持同步。增量加载可以采用定期数据库转储或实时流式传输的形式。对于定期更新,您可以将一批数据库更新加载到 Cloud Storage,然后将更新整合到云数据仓库中。对于实时更新,您可以使用在线事务处理 (OLTP) 数据库或消息传递协议(如 HL7v2 流式传输)来设置实时数据库复制。如需了解详情,请参阅云数据转移方案

转移大数据集

如需将大型数据集转移到 Google Cloud,您需要考虑转移时长、费用和复杂性。如需了解详情,请参阅大型数据集转移策略

数据生命周期

数据注入只是数据生命周期的第一步。Google Cloud 在整个数据生命周期中提供技术,包括注入、存储、分析和可视化。

后续步骤