医療データの来歴および系列のメタデータを追跡する

このドキュメントでは、研究者、データ サイエンティスト、IT チーム向けに Google Cloud の医療データの来歴メタデータと系列メタデータを追跡する方法について説明します。

来歴および系列のメタデータは、医療機関が臨床データと運用データがどこから来たか、データに何が起きているか、どこに保存されるかを追跡するのに役立ちます。この追跡により、組織は医療データを扱う際に次の目標を達成できます。

  • 組織のポリシーと外部要件を遵守する。
  • 再現可能かつ適切なデータ処理ワークロードを生成する。

来歴および系列のメタデータには、ユースケースに応じて多数のデータレベルがあります。このドキュメントでは、データセット レベル、フィールド(列)レベル、患者レコードレベルという 3 つのデータレベルについて説明します。また、Google Cloud の組み込み機能によって、これらのレベルの来歴および系列のメタデータにアクセスし追跡する方法について説明します。

データの来歴

データの来歴とは、データの出所です。特に複数のデータソースを共通のスキーマに統合する場合は、どのソースがどのデータを生成しているかを追跡することが重要です。詳細については、BigQuery のデータの変換と統合をご覧ください。

来歴情報は、データ品質のチェックやデータ プロファイリングを行う際にも有用です。たとえば、データの送信元がわかっている場合、データが品質基準を満たしているか、またはクリーンアップする必要があるかを決定できます。

Google Cloud で来歴を追跡する方法はいくつかあります。たとえば、ファイル名の命名規則またはフォルダ構造を使用して、Cloud Storage 内のデータセットなど、任意のデータセットの来歴を追跡できます。ファイル名の命名規則でデータソースが定義されている場合は、Cloud Data Fusion を使用してファイル名を解析し、ソースシステムを構造化データ要素としてデータセットに追加できます。これにより、ダウンストリーム ユーザーはソースシステムでフィルタリングし、データの来歴に基づいて検証チェックを実行できます。たとえば、次のファイル名構造は複数のセクションに解析されます。

gs://bucket-name/data-source/data-type/data-name-and-time

前述のファイル名の例では、データソースはバケットに格納されており、フォルダ サブセクションには特定のデータ型が含まれています。ファイル名には、データの名前とタイムスタンプが付けられます。ファイル名の命名規則は処理中に解析され、バケット、フォルダ、名前が、最終出力で個別のデータ要素としてそれぞれ追加されます。

FHIR 来歴リソース

医療情報を電子的に交換するための確立された標準である Fast Healthcare Interoperability Resources(FHIR)仕様には、来歴情報を維持するためのリソースが含まれています。構造変換用の Google Cloud ツールを使用する場合は、FHIR 来歴リソースを使用して構造変換とマッピングを追跡できます。マッピングする各要素は、生成する FHIR リソースの数に関係なく、1 つの来歴リソースを出力します。このリソースにより、患者レコードレベルで系列を追跡できます。

データ系列

データの系列とは、パイプラインの各ステップにおけるデータの処理です。結果を再現する必要がある場合や、サードパーティに情報を提供する必要がある場合に備えて、どのデータがどのように変換されるかを追跡することが重要です。Cloud Data Fusion は、データセット レベルとフィールド レベルで、統合されたすべてのデータセットのデータ系列を自動的に追跡します。このデータ キャプチャ機能は、系列データを管理するためのワークロードを削減するだけでなく、データ パイプラインを理解するのにも役立つ強力なツールです。

Cloud Data Fusion は、フルマネージドのデータ統合サービスとして、パイプラインとデータ フィールドを視覚的に追跡できるグラフィカル ユーザー インターフェース(GUI)と、Cloud Data Fusion に保存された系列データを抽出できる API を提供します。これら 2 つのインターフェースでは、他のソースまたはオンプレミスの系列データを利用して、エコシステム全体のデータ変換を管理できます。現在、Cloud Data Fusion ではデータセット レベルとフィールド レベルでの系列がサポートされています。

ベスト プラクティス

Google Cloud で来歴および系列のデータを追跡するためのベスト プラクティスは次のとおりです。

  • Cloud Data Fusion インスタンスを作成するときに Cloud Logging を有効にします。また、Cloud Healthcare API と、使用する追加のクラウドベースのツールやプロダクトでも Cloud Logging を有効にします。
  • Cloud Data Fusion は、インスタンス内で実行されるプロセスでのみ系列を追跡できるため、可能な限り多くのパイプラインに対して使用してください。インスタンス外(別のクラウドやオンプレミスなど)で発生した変換がある場合は、データを追跡するためのベスト プラクティスを実践していることを確認してください。または、オープンソースの Cask Data Application Platform(CDAP)を使用して情報を取得することもできます。
  • 組織全体でデータタグとメタデータタグを同期して、タグをビジネス ユニット間で検索できるようにします。

次のステップ