Cloud Data Fusion での臨床データと業務データの取り込み

このドキュメントでは、研究者、データ サイエンティスト、IT チームを対象に、Cloud Data Fusion を使用してデータを取り込み、変換して、Google Cloud 上の集約されたデータ ウェアハウスの BigQuery へデータを保存することにより、データを有効活用する方法について説明します。

医療組織では、医療分析のユースケースを推進するためのデータに依存していますが、ほとんどのデータはサイロ化されたシステム内に隔離されています。このドキュメントでは、Cloud Data Fusion を使用してこのデータにアクセスする方法を示します。

データ統合サービスとして Cloud Data Fusion を使用する

Cloud Data Fusion とは、オープンソース変換の広範なライブラリと、100 種類以上の幅広いシステムやデータ形式を提供する利用可能なプラグインを備えた、フルマネージドでクラウドネイティブなデータ統合サービスです。

Cloud Data Fusion では、さまざまなソースの元データを取り込んで統合し、そのデータを変換できます。たとえば、Cloud Data Fusion を使用して、BigQuery にデータを書き込んで分析する前に、データソースの混合または結合を行うことができます。

元データは、リレーショナル データベース、ファイル システム、メインフレームなどの従来のシステム、パブリック クラウド システム、Google Cloud の形式のデータソースから抽出されます。Cloud Data Fusion の宛先は、シンクとも呼ばれる、データが書き込まれる場所です。たとえば、Cloud Storage、BigQuery があります。

データレイクとしての Cloud Storage の使用

Cloud Storage は、クラウドに移行予定のデータの収集ポイントとして使用することも、データレイクとして使用することもできます。多数のコネクタを備えた Cloud Data Fusion で、オンプレミス システムからデータレイクにデータを取り込めます。

Cloud Healthcare API を使用した臨床データ型の取り込み

Cloud Healthcare API は、医療システムとクラウドでホストされるアプリケーション間の重要な橋渡しを行うことで、Google Cloud に医療データを取り込み、保存してアクセスするためのマネージド ソリューションを提供します。Cloud Healthcare API では、各モダリティ固有のデータストアとその関連 API は現在の標準を遵守しています。Cloud Healthcare API は、Fast Healthcare Interoperability Resources(FHIR)HL7v2Digital Imaging and Communications in Medicine(DICOM)データ型をサポートしています。詳細については、Cloud Healthcare API について理解するをご覧ください。

最近、医療機関は電子健康記録(EHR)の FHIR データ型と医療システムを使用して、組織全体にわたる臨床データのクエリ実行能力を向上させています。組織が FHIR にアクセスできる場合は、Cloud Healthcare API を使用して FHIR データを取り込み、臨床データを一括アップロードできます。

Cloud Healthcare API は、複数のバージョンの FHIR をサポートしています。サポートされているバージョンと機能の詳細については、FHIR 適合性宣言をご覧ください。

他の構造化データの取り込み

データ統合容量が拡張されているため、このドキュメントで説明する Google Cloud プロダクトでは、CSV、JSON、Avro、ORC、Parquet などの一般的な構造化データの形式を処理できます。また、Cloud Storage はあらゆるデータ形式を blob ストレージとして取り込めます。詳細については、Cloud Storage から BigQuery にデータを読み込む方法をご覧ください。

BigQuery 用のオープンソースの未加工データ インポータでは、未加工データを BigQuery にインポートでき、さらに次のような機能もあります。

  • gzip、LZ4、tar、zip などのさまざまなファイル形式をサポートする、入力ファイルの自動解凍
  • 完全なデータセット スキーマの検出
  • Dataflow 上に構築された正規の並列化

データ インポート ツールの対象は、医療データだけではありません。このツールを使用してサポートされている形式のあらゆる種類のデータセットを BigQuery にインポートして、さらに分析を進めることができます。現在、このツールは CSV データ型をサポートしています。

データの読み込み

データの読み込みには、完全と増分の 2 形式があります。最初の完全読み込みは、オンプレミスのデータ ウェアハウスからクラウド データ ウェアハウスの BigQuery に一括読み込みされるデータで構成されます。この完全読み込みは 1 回だけ実行されます。

多くの場合、増分読み込みプロセスは、最初の完全読み込みの後にクラウド内のデータをプライマリ データ ストレージと同期させることを目的として行われます。増分読み込みは、定期的なデータベース ダンプまたはリアルタイム ストリーミングの形式で行われます。定期的な更新の場合、データベースの更新のバッチを Cloud Storage に読み込んでから、その更新をクラウド データ ウェアハウスに読み込みます。リアルタイム更新では、オンライン トランザクション処理(OLTP)データベースまたはメッセージング プロトコル(HL7v2 ストリーミングなど)のいずれかを使用して、リアルタイムのデータベース レプリケーションを設定できます。詳細については、Cloud Data Transfer のオプションをご覧ください。

大規模なデータセットの転送

大規模なデータセットを Google Cloud に転送する場合は、転送時間、コスト、複雑さを考慮する必要があります。詳細については、大規模なデータセットを転送するための戦略をご覧ください。

データ ライフサイクル

データの取り込みは、データ ライフサイクルの最初のステップにすぎません。Google Cloud は、取り込み、保存、分析、可視化など、データのライフサイクル全体にわたるテクノロジーを提供します。

次のステップ