Google Cloud Platform を使用して再入院率を予測する
Google Cloud Japan Team
※この投稿は米国時間 2021 年 11 月 9 日に、Google Cloud blog に投稿されたものの抄訳です。
医療データに関する現在の課題:
現在、収集されるデータの量はこれまでにないほど増加しており、そのデータを理解して活用する必要性も急速に高まっています。あらゆる業種の組織が、データや分析情報への簡単かつ迅速なアクセスを実現して、ユーザーが情報に基づいてリアルタイムで行動できるようにしたいと思っています。医療分野も例外ではありません。
この最近の GCP のブログ記事では、電子医療記録(EHR)システムと、医療システムの相互運用性の重要性について説明しました。EHR システムには本来、システム間で通信する機能はありません。そのため、病院や診療所をまたいで医療システム内で患者を追跡することは簡単ではありません。EHR のデータは非常に複雑で、非常に多くの診断コード、治療コード、通院データ、医療機関データ、処方箋などが含まれています。さらに、病院が EHR システムをアップグレードした場合や患者が転院した場合には、(たとえ同じシステムを使用している場合でも)患者を追跡することは困難になります。
ソリューションとなるのは、乱雑な実際のデータをさまざまな EHR システム間で標準化する仕組みとしての役割を担う、共通のデータスキーマです。これは、FHIR(Fast Healthcare Interoperability Resources)と呼ばれています。
Google Cloud はこれまで、多くの組織が Healthcare Data Engine(HDE)を活用したソリューションを実装して、臨床データのストリーミングから FHIR レコードを生成するのを見てきました。これらの組織は、そのデータを BigQuery や Looker を使用して分析することにより、分析情報を引き出して臨床転帰を改善しています。
この Cloud への移行とビジネス インテリジェンス(BI)のモダナイゼーションにより、組織は、スケーリングの柔軟性、ビジネス指標とビジネス ロジックについての信頼できる統合ビューを作成する機能、リアルタイムの決定を促進する拡張可能なアクティベーション レイヤを備えた単一のプラットフォームを手に入れることができます。
背景とビジネスの機会:
Mayo Clinic によると、計画外の再入院を経験する患者の数は、医療機関が提供する治療の質と成果を追跡して評価するための方法の一つです。定義として、7 日再入院率は、退院後 7 日以内に、予定されていないにもかかわらず病院に戻り、入院することになった患者の割合を意味します。この指標は、患者が受けた治療がどの程度のものだったかを示唆するものと考えられます。再入院率が高いことは治療の質が低かったことを意味していますし、不必要な再入院は高くつきます。このことは特に、「価値に基づく償還」が適用される病院や医療機関に当てはまります。
医療分野の他の多くの質と成果の指標の中でも特に、病院の再入院率を正確に分析および理解することに関して、次のような共通する障害があります。結果の共有におけるレイテンシ、スケーラビリティ、スピード、ガバナンス、セキュリティ、全体的なアクセシビリティです。
最近、Google は BigQuery に保存された FHIR データと、BigQuery ML、Looker、Cloud Functions を使用して、7 日再入院率を予測する実際のユースケースについて検討しました。
BigQuery は、Google Cloud で提供されるフルマネージドのサーバーレス SQL データ ウェアハウスおよびデータレイクです。高性能でクエリ実行が高速であり、データが Cloud 内と他の場所への転送中に十分に暗号化されるため、セキュリティが確保されます。また、BigQuery ML と呼ばれる機能を使うと、ユーザーは BigQuery 内で標準 SQL を使用して機械学習(ML)モデルを実行できます。BigQuery ML で提供されるモデルには、線形回帰、二項ロジスティック回帰、多クラス ロジスティック回帰、K 平均法、行列分解、時系列、ブーストツリー、ディープ ニューラル ネットワーク(DNN)などが含まれます。また、入力データに基づいてさまざまなモデル アーキテクチャを検索して最善のモデルを選択してくれる、AutoML 機能も使用できます。BigQuery ML ではデータを移動する必要がないため、開発スピードを向上させることができ、データ サイエンス チームは時間と労力を、より堅牢で複雑なモデルを作成することに集中させることができます。
Looker は Google Cloud のクラウドネイティブな BI および分析のプラットフォームであり、ユーザーは、そのデータベース内アーキテクチャとセマンティック モデリング レイヤにより、リアルタイムでデータにアクセスできるようになります。Looker は BigQuery(および他のほとんどの SQL 互換データベース)に直接接続できます。つまり、データを移動したりコピーを作成したりする必要はなく、キューブや抽出に制約されません。これにより大規模なガバナンスが可能になり、Looker は、ユーザーが情報を入手し、分析情報に基づいて行動を起こすにあたっての、信頼できる単一の情報源となります。
Cloud Functions は、クラウド サービスの構築と接続に使用できるサーバーレスの実行環境を提供します。トリガーされたときに実行できる、シンプルな単一目的の関数を作成することができ、Looker と BigQuery それぞれの情報の間で橋渡しの役割を果たすことができます。
このユースケース ソリューションの目標は次のとおりです。(1)病院の臨床医と管理者が、7 日再入院率に関してどこに最も力を入れるべきかを理解できるよう支援する(2)アラート、セルフサービス、データドリブンなアクションにより、プロアクティブな介入を開始できるようにする(3)Cloud の最新の統合プラットフォームで、データのスケーリング、ガバナンス、セキュリティ保護を行う。
ソリューションとその仕組み:
データを BigQuery に取り込み、BigQuery を Looker に接続したら、分析を開始できます。Looker のセマンティック モデリング レイヤは LookML を活用します。これは、再利用可能なコンポーネントに変換することで SQL を簡素化する、抽象化された SQL です。LookML を使用することで、統合指標を構築して定義するための変換を行うことができます。そして、AutoML Tables による分類と回帰のための BigQuery ML Looker ブロックを実装することにより、BigQuery ML モデルを Looker のセマンティック モデリング レイヤで直接作成できます。
このブロックは、トレーニング方法、評価方法、予測方法のコンポーネントを実行してターゲット変数を求めます。今回のユースケースの場合、ターゲット変数は 7 日再入院の傾向スコアです。すでに説明したように、BigQuery ML では標準 SQL を使用してこれを簡単に行うことができます。モデルのパフォーマンスは、BigQuery ML で提供されていてすぐに使える評価関数を使用して評価でき、CREATE MODEL 構文のモデル オプションを使用して、必要に応じてハイパーパラメータを簡単に調整できます。
Looker でモデルを構築するメリットは次のとおりです。
従来のデータ サイエンス手法と異なり、コードを一か所で管理できるため、使用とアクセスが容易になる
新しく取り込んだデータに基づくモデルの自動的な再実行を継続するための更新頻度を選べる
コードを迅速に実装でき、Looker UI で結果の可視化と検討を容易に行える
モデルの重要業績評価指標に着目したダッシュボードを Looker 内で作成できます。他のデータ サイエンス手法を使用する場合、精度と適合率の結果は利用できないか、共有するのが難しいことがあります。Looker のダッシュボードではモデルのパフォーマンスについての透明性が提供されます。また、新しいデータが追加されるたびに Looker は BigQuery からそれを直接読み込むため、予測の変化をリアルタイムで確認したり、モデルのパフォーマンス KPI の変動を確認したりできます。
モデルのパフォーマンスを確認するためのダッシュボードを構築することに加えて、病院全体での、および患者レベルでの再入院率を分析することもできます。Google は、病院の臨床医、ケア マネージャー、管理者が、概要ダッシュボードで施設別、専門領域別、条件別の病院の全体的なパフォーマンスをどのように確認できるかを示す例を構築しました。この例では、患者ビューで個々の患者とその平均再入院率スコアも確認できます。
*免責事項: このユースケースの検討では、サンプルの合成データを使用しています(実際の個人情報または保護対象保健情報は使用していません)
臨床医やケア マネージャーは、予測スコアに基づいて個々の患者をモニタリングするアラートを Looker 内で設定できます。Looker のアラートにしきい値を設定して、そのしきい値に到達したときに通知を受け取れるようにすることもできます。これにより、ケア マネージャーは患者の退院ケアプランを作成する際に、後手後手で対応するのではなく、よりプロアクティブに行動することができるようになります。
リスクスコアが高い患者に対しては、フォローアップのためのメールをプラットフォームから直接送信することもできます。
これは Looker アクションの一例です。他にも次のような多くのことができます。
Twilio を使用してテキスト メッセージを送信する
データを Google スプレッドシートに送信する
データを Google Cloud Storage などのリポジトリに送信する
フォームを使用して BigQuery に書き戻す
Cloud Functions を使用すると、書き戻しのプロセスが容易になります。今回のユースケースでは、退院時の患者のフィードバックと満足度を収集するために LookML でフォームを作成しました。これにより、フォームを提出した際に Looker アクションによって書き戻しがトリガーされます。書き戻しは Cloud Function によってバックグラウンドで実行されます。フォームを使用することで、病院は分析のためのアンケート データの収集と構造化された形式での保存をシームレスかつ簡単に行えるようになります。データが BigQuery に取り込まれたら、再入院率リスクスコアを再学習して予測するための追加の特徴として、データを最終的に BigQuery ML モデルに戻すことができます。
サンプルの Cloud Functions 関数コードを GitHub でご確認ください。
有用性と今後の可能性:
Google Cloud は、データに関するシームレスなエクスペリエンスを提供します。このソリューションは、結果の共有におけるレイテンシ、スケーラビリティ、スピード、ガバナンス、セキュリティ、全体的なアクセシビリティの課題解決を目指したものです。Looker のデータベース内アーキテクチャとセマンティック モデリング レイヤは、BigQuery と BigQuery ML の性能、スピード、セキュリティを受け継いでいます。そして、Cloud Functions を使用して実装することにより、データと運用ワークフロー両方の強化が実現できます。このようなワークフローは、臨床医、ケア マネージャー、病院管理者、データ サイエンティストが日々の業務に取り組む方法に影響を与え、結果として医療コストを下げ、患者治療の質を向上させることができます。
このソリューションの構築に関する今後の取り組みには、GCP Healthcare NLP API の活用が含まれるでしょう。Healthcare NLP API は、臨床に関するメモなど、構造化されていないデータを、データの検討や下流での追加の AI / ML 活用に適した構造化形式に変換します。
Looker の医療およびライフ サイエンス分野のソリューションに関する今後の進展にご期待ください。
- Looker エンタープライズ カスタマー エンジニア Rachel Kamienski
- Looker テクニカル ソリューション コンサルタント Alick Zhang