의료 데이터의 출처 및 계보 메타데이터 추적

이 문서에서는 연구자, 데이터 과학자, IT팀의 Google Cloud에서 의료 데이터의 출처 및 계보 메타데이터를 추적하는 방법을 설명합니다.

출처 및 계보 메타데이터를 통해 의료 기관은 임상 및 운영 데이터의 출처, 데이터로 인한 상황, 저장 위치를 추적할 수 있습니다. 이 추적을 사용하면 의료 데이터로 작업할 때 다음과 같은 목표를 달성할 수 있습니다.

  • 조직 정책 및 외부 요구사항을 준수합니다.
  • 반복 가능하고 재현 가능하며 정당한 데이터 처리 워크로드를 생성합니다.

출처 및 계보 메타데이터에는 사용 사례에 따라 다양한 데이터 수준이 있습니다. 이 문서에서는 데이터 세트 수준, 필드(열) 수준, 환자 기록 수준 등 세 가지 데이터 수준을 설명하고, Google Cloud의 기본 제공 기능을 사용하여 이 수준에서 출처 및 계보 메타데이터를 액세스하고 추적하는 방법을 보여줍니다.

데이터 출처

데이터 출처는 데이터의 원본입니다. 특히 여러 데이터 소스를 공통 스키마로 조화시킬 때, 어떤 소스에서 어떤 데이터를 생산하는지 추적하는 것이 중요합니다.

출처 정보는 데이터 품질 확인을 실행하거나 데이터 프로파일링을 실행할 때도 유용합니다. 예를 들어 데이터의 출처를 알면 데이터가 품질 기준을 충족하는지 아니면 데이터를 정리해야 하는지 결정할 수 있습니다.

Google Cloud에서 출처를 추적하는 방법에는 여러 가지가 있습니다. 예를 들어 파일 이름 규칙 또는 폴더 구조를 사용하여 Cloud Storage의 데이터세트와 같이 임의 데이터세트의 출처를 추적할 수 있습니다. 데이터 소스가 파일 이름 규칙에 정의된 경우 Cloud Data Fusion을 사용하여 파일 이름을 파싱하고 소스 시스템을 정형 데이터 요소로 데이터 세트에 추가할 수 있습니다. 이렇게 하면 다운스트림 사용자가 소스 시스템별로 필터링하고 데이터 출처에 따라 유효성 검사를 실행할 수 있습니다. 예를 들어 다음 파일 이름 구조는 여러 섹션으로 파싱됩니다.

gs://bucket-name/data-source/data-type/data-name-and-time

앞의 파일 이름 예시에서는 데이터 소스가 버킷에 저장되며, 특정 데이터 유형은 폴더 하위 섹션에 저장됩니다. 파일 이름은 데이터의 이름과 타임스탬프로 라벨링됩니다. 파일 이름 규칙이 처리되는 동안 파싱되어 버킷, 폴더, 이름이 최종 출력에 각각 별도의 데이터 요소로 추가될 수 있습니다.

FHIR 출처 리소스

의료 정보를 전자적으로 교환하기 위해 만들어진 표준인 Fast Healthcare Interoperability Resources(FHIR) 사양에는 출처 정보 유지를 위한 리소스가 포함되어 있습니다.

데이터 계보

데이터 계보에서는 파이프라인을 따라 모든 단계에서 데이터가 어떻게 처리되는지 알 수 있습니다. 결과를 다시 생성하거나 제3자에게 정보를 제공해야 할 경우에 대비해 어떤 파일에 어떤 데이터 변환이 진행되었는지 추적하는 것이 중요합니다. Cloud Data Fusion은 데이터 세트 수준과 필드 수준에서 모든 통합 데이터세트의 데이터 계보를 자동으로 추적합니다. 이 데이터 캡처 기능은 계보 데이터 관리를 위한 워크로드를 줄이고 사용자가 데이터 파이프라인을 이해할 수 있도록 지원하는 강력한 도구입니다.

완전 관리형 데이터 통합 서비스인 Cloud Data Fusion은 파이프라인과 데이터 필드를 시각적으로 추적할 수 있는 그래픽 사용자 인터페이스(GUI)와 Cloud Data Fusion에 저장된 계보 데이터를 추출할 수 있는 API를 제공합니다. 이 두 인터페이스를 사용하여 다른 소스 또는 온프레미스 계보 데이터로 작업할 수 있으므로 생태계 전반에서 데이터 변환을 관리할 수 있습니다. 현재 Cloud Data Fusion은 데이터 세트 수준과 필드 수준에서 계보를 지원합니다.

권장사항

Google Cloud에서 출처 및 계보 데이터를 추적하는 일부 권장사항은 다음과 같습니다.

  • Cloud Data Fusion 인스턴스를 만들 때 Cloud Logging을 사용 설정합니다. 또한 Cloud Healthcare API와 함께 사용하는 추가 클라우드 기반 도구 또는 제품을 사용하여 Cloud Logging을 사용 설정합니다.
  • 인스턴스 내에서 실행되는 프로세스의 계보만 추적할 수 있으므로 최대한 많은 파이프 라인에 Cloud Data Fusion을 사용합니다. 인스턴스 외부에서 발생하는 변환이 있는 경우(예를 들어 다른 클라우드 또는 온프레미스) 데이터 추적을 위한 권장사항이 있는지 확인하세요. 또는 오픈소스 Cask Data Application Platform(CDAP)을 사용하여 정보를 캡처할 수 있습니다.
  • 태그가 전체 비즈니스 단위에서 검색될 수 있도록 조직 전체에서 데이터 태그와 메타데이터 태그를 동기화합니다.

다음 단계