データ分析

COVID-19(新型コロナウイルス感染症)一般公開データセット: オープンでアクセスしやすいデータへの継続的な取り組み

WorkplaceTransformation-01.png

※この投稿は米国時間 2020 年 8 月 14 日に、Google Cloud blog に投稿されたものの抄訳です。


今年 3 月、Google は新しい COVID-19 一般公開データセットを Google Cloud Public Datasets プログラムに加えることで、重要なデータセットへのアクセスを増やし、新型コロナウイルスへのグローバルな対応をサポートすることを発表しました。このプログラムは当初、COVID-19 の症例データに重点を置いていましたが、以降は提供するデータセットを拡大することで、研究コミュニティのメンバーや公的な意思決定者に付加価値を提供しています。また、COVID-19 一般公開データセットの無料照会の提供を 2021 年 9 月 15 日までさらに 1 年間延長します。

こうしたデータセットの拡大は、Google Cloud と緊密に連携して BigQuery にデータをオンボードするデータ プロバイダとの数多くのパートナーシップなしには不可能です。データ プロバイダは、パブリック データを BigQuery にオンボーディングすることで障壁を取り除き、ユーザーがそれらの大規模データファイルにアクセスして照会を行える速度を向上させています。COVID-19 一般公開データセットと BigQuery により、すべてを 1 か所で簡単に見つけることができます。

Google は、ユーザーをサポートするための取り組みを継続するにあたり、リソースの不足がこのデータの理解に影響を与えないようにしたいと考えています。そのため、Google はデータセットへのアクセスを拡大しています。そうすることで、この秋から学生や教員が遠隔学習を通じてデータセットを照会するにしても、公的な意思決定者がコミュニティを安全に再開できるタイミングを計るにしても、このパンデミックへの解決策を見つけ出そうとする貢献者の数が拡大することを願っています。こうしたデータセットにより、COVID-19 との闘いにおいて、世界中からアクセス可能で有用な情報を提供し続けていければ幸いです。

Google が組織と協力して COVID-19 データセットを利用可能にした方法

パンデミックが始まって以来、The New York Times は全米の症例を追跡し、可視化してきました。郡および州レベルで集計された症例データを一般公開することで、研究者がウイルスの感染を追跡、モデル化、可視化できるようにしています。この豊富なデータセットは、2020 年 1 月 21 日にワシントン州で最初に報告されたコロナウイルスの症例から始まり、米国の国家レベル、州レベル、郡レベルの症例数と死亡数を提供しています。全米や国外での死亡数が増加し始めたことを受け、The New York Times は、研究者と一般の人々にパンデミックによる世界の犠牲者に関する正確な記録を提供するために、超過死亡トラッカーの裏付けとなるデータを公開しました。その際、The New York Times は Google と協力して、このデータに BigQuery でアクセスできるようにしました。また、米国の各郡におけるマスク着用の普及率を推定し、そのデータを研究者が利用できるようにすることで、パンデミックの過程でのマスク着用の役割をよりよく理解するための手だてを提供しました。

こうした取り組みや他の多くの試みを補完し、政治的措置の影響をよりよく理解するために、Google は COVID-19 コミュニティ モビリティ レポートもリリースしました。このレポートは、コミュニティの動向に関するデータを提供し、そのデータを BigQuery で利用できるようにしています。また最近、COVID-19 Public Forecasts を発表し、第一対応者やその他の医療組織、公共部門の影響を受ける組織が、今後に向けて症例数や死亡数などの指標を推定するのを支援しています。こうしたデータは BigQuery でも利用可能です。

次に、Google は、健康の社会的決定要因に関するデータセットを公開することにより、コミュニティと医療システムにおける COVID-19 のさまざまな影響を理解するのに役立つデータを優先することにしました。そして、無料照会の対象となる COVID-19 に関連する照会の範囲を拡大するために、米国国勢調査局の American Community SurveyOpenStreetMap などの既存のデータセットを含めました。また、BroadStreet などの組織と協力して、米国の地理的剥奪指標などのデータセットを BigQuery で利用できるようにしました。このデータセットは、公衆衛生の問題に対するコミュニティの脆弱性を非常に詳細なレベルで測定します。最後に、意思決定者が入院患者数の急増に対するコミュニティの対処能力についてよりよく理解できるように、American Hospital Association の病院収容能力データを公開しました。

Google はまた、COVID-19 に対する科学コミュニティの対応は多くの場合、質の高い科学データの可用性とアクセス可能性に依存することも認識しています。そこで、SARS-CoV-2 ウイルスに対する免疫反応を調査する研究者へのリソースとして Immune Epitope DatabaseVita 他、Nucleic Acid Research、2018 年)をBigQuery に含めました。さらに、研究者が Google Cloud AI Platform を使用してこのデータセットから予測モデルを探索して構築できる方法を説明する一連の記事を公開しました。科学コミュニティへの追加リソースとしては、COVID-19 Open Data データセットを作成しました。これは、公開されている多数の COVID-19 と関連するデータセットを地理的に細かく組み合わせ、BigQuery と CSV および JSON 形式の両方で使用できるようにします。このデータセットの作成に使用されたコードはオープンソースであり、GitHub で利用可能です。

Google では、COVID-19 一般公開データセットのリスト拡大を継続するにあたり、次の 4 つの確立された重点分野に沿った新しいデータセットを引き続きリリースしていきます。

  • 疫学と衛生対応(症例や検査の統計、病院データなど)
  • 政府の政策対応と効果(モビリティやマスク コンプライアンスなど)
  • 健康とコミュニティの対応の社会的決定要因
  • 生物医学とその他の研究データ

Google Cloud Next ‘20: OnAir に参加される方は、Data vs. COVID-19: How Public Data is Helping Flatten the Curve をチェックしてください。このセッションでは、一般公開データと Google Cloud および COVID-19 の一般公開データセットがパンデミックとの闘いに役立つ方法と、個々の意思決定に情報を与えて、ウイルスのまん延やリスクについて誰もが情報に基づいた決定を下せるようする方法について取り上げます。また、協調的な取り組みによって流行を抑えられる方法についても説明します。


-Michael Hamamoto Tribble, Head of Public Data, Google Cloud / Donny Cheung, Tech Lead/Engineering Manager, Healthcare & Life Sciences AI, Google Cloud