COVID-19 と戦う医療研究者に対するデータ サイエンティストの支援
Google Cloud Japan Team
※この投稿は米国時間 2020 年 6 月 16 日に、Google Cloud blog に投稿されたものの抄訳です。
COVID-19(新型コロナウイルス感染症)パンデミックを乗り切るために重要な鍵を握るのが、最先端の技術革新です。500 万人近いユーザー数を誇る世界最大のデータ サイエンティスト コミュニティ、Kaggle は、現在、医療業界が COVID-19 の理解を深める一助となるようなデータ サイエンスのチャレンジを複数主催しています。また、AI を活用することで、パンデミックの克服を目指すサイエンティストの力になれるのではないかと期待しています。
Kaggle のコミュニティは、COVID-19 の死亡者数の予測や COVID-19 関連文献の要約を行うだけでなく、作業内容をオープンソースの Apache 2.0 ライセンス(Kaggle.com)で共有するなど、懸命に取り組んでいます。この投稿では、現在進行中のチャレンジや、問題の解決方法としてコミュニティで使用されている興味深い戦略を詳しくご紹介します。
NLP と COVID-19
COVID-19 に関する研究件数はもはや管理不可能な数に上ります。COVID-19 に関して 5 月に発表された1 日あたりの科学論文の数は約 357 件で、2 月の 16 件から大幅に増えています。3 月には、ホワイトハウスや世界的な研究機関の関係者から Kaggle に対して、絶え間なく発表される膨大な数の印刷前発行物から知見を抽出するために、自然言語処理の(NLP)チャレンジを主催するよう要請がありました。
具体的には、全米アカデミーズ(全米科学アカデミー、全米技術アカデミー、全米医学アカデミー)の新興感染症対策常任委員会と世界保健機関の COVID-19 に関する R&D Blueprint から出された 9 つの主な質問の答えを Kaggle のコミュニティで見つけ出すというものです。こうした質問の答えを探すために、Kaggle では、機械読み取りが可能な形式で保存された 139,000 件を超える科学論文の集成データベースを公開しています。すでに、SciBERT や BioBERT のほか、類似のモデルを含む言語 Transformer モデルを使って興味深い作業が数多く実施されています。コード(Python と R 言語)はすべてオープンソース化されていますので、ぜひご確認ください。
たとえば図 1 は、COVID-19 の感染拡大に対する温度と湿度の影響について、最新の調査結果を説明した論文サマリー テーブルの、最初の 2 つの行を表したものです。予備テーブルは、可能な限り多くの関連情報を抽出する Kaggle Notebooks によって作成され、その後医療専門家チームが間違いや欠損値がないかをもう一度確認しています。論文サマリー テーブルには、引用元の出版物からそのまま抽出されたテキストの抜粋が含まれます。このようなサマリー テーブルを使えば、研究者は次から次へと発行される論文にはるかに容易に対応できます。
図 1
[説明] 図 1: こちらに掲載されている論文サマリー テーブルの一例。論文は時系列に並べられています。テーブルには研究結果、研究の種類、研究デザインといった情報が表示され、各行には研究名と PDF(全文)へのリンク、論文が掲載された雑誌名も表示されています。
Kaggle への貢献者であり、NeuML の創設者でもある米国在住の David Mezzetti 氏は、次のように説明しています。「私が最初に採用した方法は、データの意味類似度のインデックスを作成し、研究者がトピックとキーワードの一致で検索できるようにすることでした。検索が重要なのはもちろんですが、研究者にとって、論文の基となる研究を評価するにはコンテキストがさらに必要だと考えました。私の取り組みの多くは、主に NLP を使用して研究のメタデータ(デザイン、サンプルのサイズや方法、リスク要因統計値)を抽出するというものです。このアプローチを使えば、研究者は関連論文を見つけ出せるだけでなく、論文の結論が信頼できるものかどうかを判断することもできます。」
時系列予測と COVID-19
3 月 23 日に、Kaggle はまた、疫学者の役に立つ新しいモデリング方法を開拓しようと、世界の感染拡大を予測する一連のコンテストを開催しました。その目的は、実際の入院者数、ICU 患者数、死亡者数と十分に相関しているはずの、各地域の感染者数と死亡者数の合計を予測することのほかに、危機に対応するために必要とされる、数少ないリソースの総数を予測することにありました。
COVID-19 の予測は、これまでも困難を極める作業でしたが、Kaggle のコミュニティで今後医療研究者の役に立つ予測方法を生み出せるよう願っています。これまでの結果から、今後の成功が期待できそうです。下の図にあるように、4 月に行われた Kaggle のコンテストで優勝したソリューションと優れた疫学モデルとを、予測値のログと実際の値のログとの間の誤差を測定する RMSLE(Root Mean Squared Logarithmic Error: 二乗平均対数平方誤差)に基づき比較したところ、優勝したソリューションは、米国の 51 の州と準州における今後 29 日間の死亡者数を疫学モデルとほぼ同じように予測できました(さまざまな目的関数に対してモデルが最適化されている可能性があるため、おおよその比較となります)。
図 2
Kaggle のコンテストに参加したインド在住の Rohan Rao 氏は、次のように述べています。「今回の一連のコンテストから、解決策が簡単に見つかる問題ではないということがわかります。現時点では、さまざまなソースから集めたデータを消費可能な形式に変換する、短期予測と長期予測のモデリングの違いを理解する、簡単な機械学習モデルに少し変更を加えて利用するなどの方法を組み合わせるのが、最も効果的な方法のようです。もっと多くのデータが利用できるようになり、各国でどのように感染が拡大しているかが解明されてくれば、インテリジェントな機能を追加することで、こうした予測の精度を上げて最適化し、地域ごとの予測ができるようになると思います。」
参加したサイエンティストは、XGBoost と LightGBM(ex1、ex2、ex3)など、機械学習モデルの高度なアンサンブルを使用することで、良い結果を出しています。また、人口規模、人口密度、年齢分布、喫煙率、経済指標、全国規模の都市封鎖日など、予測精度を上げることのできる外部データの重要な情報ソース(ex1)を特定することにも成功しています。特徴の重要度やSHAP 値(SHapley Additive exPlanations)などの手法を使用してさまざまなモデルの特徴の相対的寄与率を調べることで、COVID-19 の感染者数と死亡者数予測に有用な予測要因を確認できました。ニューラル ネットワークと勾配ブーストマシンを使った数多くの興味深い作業が実施されています。コード(Python と R 言語)はすべてオープンソース化されていますので、ぜひご確認ください。
一般公開データと COVID-19
Kaggle はまた、とりわけウイルスの感染拡大の予測に役立つ COVID-19 関連のデータセットを見つけ出してキュレートし、共有することを目的としたデータセットのキュレーション コンテストも開催しました。これまでに入賞したソリューションには、次のようなものがあります。
- COVID-19 への米国政府の対応を知らせる郡単位のデータセット: 感染拡大予測に利用可能な、人口統計、医療、「社会的距離」措置などに関する行動を説明。
- COVID-19 の国別都市封鎖日: 感染拡大の速度が落ちる時点を表示してモデルに通知できる。
- COVID-19 の国別検査実施数: 感染数の拡大が患者数増加によるものか、検査機能の拡大によるものかをモデルに通知できる。
地域ごとの政策、施行日、検査プロトコルを考慮することで、データドリブンの的確な結論を導き出すことができます。
また、データセットのパブリッシャーは、Kaggle サイトでセルフサービスのタスクやチャレンジをすばやく立ち上げることができます。たとえば、Roche Data Science Coalition(RDSC)は最近、一般提供されている COVID 関連のデータセット コレクションを公開し、医療や公共政策の最前線の従事者から回ってきた最も差し迫った問題の答えを見つけ出すことに特化したチャレンジを立ち上げました。Kaggle は、だれでもデータセットをアップロードして、データ分析コンテストを主催したり、Notebooks を公開したりできる、あらゆるユーザー向けの無料プラットフォームです。COVID-19 への対応を考えるデータ サイエンティストやデータ パブリッシャーの皆様はぜひ Kaggle をご活用ください。
まとめ
世界中のデータ サイエンティストが一丸となって医学界を支援し、COVID-19 に打ち勝とうと取り組んでいます。そのために皆様の協力を必要としています。この取り組みの最新情報について詳しくは、kaggle.com/covid19 をご覧ください。また、コミュニティの目標達成に向けた進捗状況については、kaggle.com/covid-19-contributions をご参照ください。
- By Kaggle プロダクト マネージャー Devvret Rishi、Kaggle デベロッパー アドボケイト Paul Mooney & Walter Reade