Cloud Data Fusion으로 임상 및 운영 데이터 수집

이 문서는 Cloud Data Fusion이 Google Cloud의 집계된 데이터웨어 하우스인 BigQuery에서 데이터를 수집, 변환 및 저장하여 어떻게 데이터를 잠금 해제할 수 있는지 연구원, 데이터 과학자 및 IT 팀에게 설명합니다.

의료 조직은 의료 분석 사용 사례를 추진하기 위해 데이터를 사용하지만, 대부분의 데이터는 격리 상태의 시스템에 잠겨 있습니다. 이 문서에서는 Cloud Data Fusion으로 이 데이터에 액세스하는 방법을 보여줍니다.

Cloud Data Fusion을 데이터 통합 서비스로 사용

Cloud Data Fusion은 광범위한 오픈소스 변환 라이브러리와 광범위한 시스템 및 데이터 형식을 제공하는 100개 이상의 사용 가능한 플러그인을 갖춘 완전 관리형 클라우드 네이티브 데이터 통합 서비스입니다.

Cloud Data Fusion을 사용하면 다양한 소스의 원시 데이터를 수집하고 통합하고 해당 데이터를 변환할 수 있습니다. 예를 들어 데이터 분석을 위해 BigQuery에 쓰기 전에 Cloud Data Fusion을 사용하여 데이터 소스를 혼합하거나 조인할 수 있습니다.

원시 데이터는 관계형 데이터베이스, 파일 시스템, 메인프레임, 기타 기존 시스템, 퍼블릭 클라우드 시스템, Google Cloud 형식의 데이터 소스에서 가져옵니다. 싱크라고도 하는 Cloud Data Fusion 대상은 데이터가 작성되는 위치입니다(예를 들어 Cloud Storage 및 BigQuery).

Cloud Storage를 데이터 레이크로 사용

Cloud Storage를 클라우드로 이동할 데이터의 수집 지점으로 사용할 수 있으며 이를 데이터 레이크로 사용할 수도 있습니다. Cloud Data Fusion은 많은 커넥터를 사용하여 온프레미스 시스템의 데이터 레이크를 채웁니다.

Cloud Healthcare API를 사용하여 임상 데이터 유형 수집

Cloud Healthcare API는 클라우드에서 호스팅되는 의료 시스템과 애플리케이션 간에 중요한 브릿지를 만들어 Google Cloud에서 의료 데이터를 수집, 저장, 액세스할 수 있는 관리형 솔루션을 제공합니다. Cloud Healthcare API에서 각 형식별 데이터 스토어 및 관련 API는 현재 표준을 준수합니다. Cloud Healthcare API는 Fast Healthcare Interoperability Resources(FHIR), HL7v2, Digital Imaging and Communications in Medicine(DICOM) 데이터 유형을 지원합니다. 자세한 내용은 Cloud Healthcare API 알아보기를 참조하세요.

최근에 의료 기관은 전자 의료 기록(EHR) 및 의료 시스템에 FHIR 데이터 유형을 사용하여 조직 전체에서 의료 데이터를 쿼리하는 기능을 확장해 왔습니다. 조직에서 FHIR에 액세스할 수 있는 경우 Cloud Healthcare API를 사용하여 FHIR 데이터를 수집하여 의료 데이터를 일괄 업로드할 수 있습니다.

Cloud Healthcare API는 여러 버전의 FHIR를 지원합니다. 지원되는 버전 및 기능에 대한 자세한 내용은 FHIR 적합성 문을 참조하세요.

다른 구조화된 데이터 수집

확장된 데이터 통합 기능을 위해 이 문서에서 설명하는 Google Cloud 제품은 CSV, JSON, Avro, ORC, Parquet와 같은 일반적인 구조화된 데이터 형식을 처리할 수 있습니다. 또한 Cloud Storage는 모든 데이터 형식을 blob 스토리지로 수집할 수 있습니다. 자세한 내용은 Cloud Storage에서 BigQuery로 데이터를 로드하는 방법을 참조하세요.

BigQuery용 오픈소스 원시 데이터 가져오기 도구는 원시 데이터를 BigQuery로 가져올 수 있으며 다음과 같은 기능이 있습니다.

  • gzip, LZ4, tar, zip 파일 형식을 비롯한 다양한 형식을 지원하는 입력 파일의 자동 압축 해제
  • 전체 데이터 세트 스키마 감지
  • Dataflow를 기반으로 하는 적절한 동시 로드

데이터 가져오기 도구는 의료 데이터로 제한되지 않습니다. 이 도구를 사용하여 지원되는 형식의 모든 데이터 세트를 BigQuery로 가져와서 추가 분석을 수행할 수 있습니다. 현재 이 도구는 CSV 데이터 유형을 지원합니다.

데이터 로드

데이터 로드에는 전체와 증분이라는 두 가지 형식이 있습니다. 초기 전체 로드는 온프레미스 데이터웨어 하우스에 있는 데이터를 클라우드 데이터 웨어하우스인 BigQuery로 일괄 로드하는 것으로 구성됩니다. 이 전체 로드는 한 번만 수행됩니다.

증분 로드 프로세스는 대개 클라우드의 데이터를 기본 데이터 저장소와 동기화하는 것을 목표로 초기 전체 수집을 따릅니다. 증분 로드는 주기적인 데이터베이스 덤프 또는 실시간 스트리밍의 형태를 취할 수 있습니다. 주기적인 업데이트의 경우 Cloud Storage에 대한 일괄 데이터베이스 업데이트를 로드한 다음 업데이트를 클라우드 데이터 웨어하우스에 통합할 수 있습니다. 실시간 업데이트의 경우 온라인 트랜잭션 처리(OLTP) 데이터베이스 또는 HL7v2 스트리밍과 같은 메시징 프로토콜을 사용하여 실시간 데이터베이스 복제를 설정할 수 있습니다. 자세한 내용은 Cloud Data Transfer 옵션을 참조하세요.

대규모 데이터 세트 전송

대규모 데이터 세트를 Google Cloud로 전송하려면 전송 기간, 비용, 복잡성을 고려해야 합니다. 자세한 내용은 대규모 데이터 세트를 전송하기 위한 전략을 참조하세요.

데이터 생명 주기

데이터 수집은 데이터 수명 주기의 첫 번째 단계일 뿐입니다. Google Cloud는 수집, 저장, 분석, 시각화를 포함하여 데이터 수명 주기 전반에 걸쳐 기술을 제공합니다.

다음 단계