データ分析

COVID-19 一般公開データセットプログラム: より優れた成果を目指して自由にアクセス可能なデータを提供

Data Analytics.jpg

※この投稿は米国時間 2020 年 3 月 31 日に、Google Cloud blog に投稿されたものの抄訳です。

データは常に、公衆衛生上の緊急事態に対する調査や研究、取り組みにおいて重要な役割を果たしますが、世界的な危機の発生時にこそ、その真価が発揮されるといえるのではないでしょうか。研究プロセスにとって、データセットへのアクセスやそのデータをクラウド規模で分析できるツールは、切り離すことのできない重要なものですが、とりわけ COVID-19(新型コロナウイルス感染症)への対応にあたっては、その必要性がグローバル規模で高まっています。

Google Cloud では、研究者、データ サイエンティスト、アナリストが COVID-19 に対抗するための取り組みを支援するために、Johns Hopkins Center for Systems Science and Engineering(JHU CSSE)、世界銀行のグローバル医療データ、OpenStreetMap データなどの一般公開データセットのホスト型リポジトリを作成し、COVID-19 一般公開データセット プログラムを通じて自由にアクセスしてクエリを実行できるようにしています。研究者は BigQuery ML を使用して、追加費用なしでこのデータを BigQuery 内で活用し、高度な機械学習モデルをトレーニングすることもできます。  

Descartes Labs 社のエンジニアリング部門責任者である Sam Skillman 氏は、次のように述べています。「COVID-19 のデータをオープンにして BigQuery で利用できるようになれば、研究者や現場での分析に非常に役立ちます。特に、無料のクエリは参加者の増加につながり、同僚やパブリックとすばやく結果や分析が共有可能になることで、ウイルスの広がり方についての共通認識を促すことができます。」

これらのデータセットにより障壁が取り除かれ、重要な情報に迅速かつ容易にアクセスできるため、大規模なデータファイルを検索したり取り込んだりする必要がありません。研究者は Google Cloud Console 内からデータセットにアクセスし、データの説明やサンプルクエリを活用して研究を進めることができます。プログラムに含まれるデータはすべて一般公開され、自由に利用できます。本プログラムは 2020 年 9 月 15 日まで有効です。

ノースイースタン大学のアソシエイト研究員である Matteo Chinazzi 氏は、次のように述べています。「この感染症の拡散に関するデータドリブンなモデルの開発は極めて重要といえるでしょう。当大学のチームでは、COVID-19 の感染拡大をモデル化し、理解を深めるために集中的に取り組んでいます。COVID-19 のデータをオープンにして BigQuery で使用できるようにすることで、研究者や公衆衛生当局は、この病気がもたらす影響を詳しく理解し、研究、分析できるのです。」

これらのデータセットの内容は、教育と研究の目的でのみ一般公開されています。COVID-19 一般公開データセット プログラムの一環として、PHI や PII のデータの利用や管理は行っていません。Google では、広く認知されている患者のプライバシーとデータ セキュリティ ポリシーに従ってデータが処理されるように、プラクティスとポリシーを定めています。

COVID-19 一般公開データセット プログラムにより、この病気の拡散防止に取り組むうえでのより優れた迅速な研究を実現できることを、Google Cloud チーム一同、心から願っています。

- By BigQuery プロダクト マネージャー兼 GIS リード Chad W. Jennings、デベロッパー アドボケイト Shane Glass