コンテンツに移動
データ分析

BigQuery 分析を強化する人気の高い一般公開データセット

2021年1月14日
Google Cloud Japan Team

※この投稿は米国時間 2020 年 12 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。

イネのゲノムから過去のハリケーンのデータまで、Google Cloud の一般公開データセットを使用することで、データを探索、分析し、有用な情報を得られます。Google の一般公開データセット プログラム内の 200 件以上のデータセット全体で 20 PB を超える容量が確保されているため、多額の費用、設定の手間、オーバーヘッドがかかることなくビッグデータとデータ分析が利用しやすくなっています。1 か月あたり最大 1 TB のデータを無料で照会できるため、BigQuery サンドボックスの利用を開始するにあたり、請求先アカウントを準備する必要もありません。輸送管理改善のために位置情報を追加したり、米国海洋大気局(NOAA)の気象データを天気予報モデルに取り込んだりするなど、一般公開データセットとご自身のデータを結合することで、直ちに分析情報が得られます。小売業者は、市場分析に国勢調査データを使用でき、小売業者に所属するアナリストは、ユーザーを国勢調査細分区、郵便番号、郡境ジオメトリと対応付けることができます。

これらのデータセットを使用することで、データ要素の探索と階層化を開始しやすくなり、法人のお客様にとってもデータ分析がはるかに簡単になります。これらの多用途データセットを使用すると、一からデータ収集することなく、有効で整理されたデータを最初から使用できます。

Google Cloud の一般公開データセットには、レガシー SQL クエリまたは標準 SQL クエリを使用して、BigQuery と Cloud Storage からアクセスできます。研究者は BigQuery ML を使用して、追加費用なしでこのデータを BigQuery 内で活用し、高度な機械学習モデルをトレーニングすることも可能です。BigQuery GIS には、データ分析でロケーションの要素が必要なときに、地理空間データの取り込み、処理、分析に使用できる便利な機能が組み込まれています。

Video Thumbnail

ここで、よく使用されるデータセットとその使用方法を見てみましょう。

医療分野と研究分野へのデータの利用拡大 - 2020 年、COVID-19(新型コロナウイルス感染症)の一般公開データセットが、このウイルスを理解し、これと戦おうとしている研究者にとって非常に重要な役割を果たしました。3 月のパンデミック開始時、Google は、研究者、データ サイエンティスト、アナリストによる新型コロナウイルスとの戦いを支援するため、最初の無料一般公開データセットを発表しました。このデータセットには、COVID-19 Open Data データセット世界銀行のグローバル医療データOpenStreetMap データが含まれています。この COVID-19 データセットは、2021 年 9 月 15 日まで無料で利用できます。Looker をご利用のお客様は、COVID-19 ブロックもインストールできます。このブロックには、マーケットプレイスのコミュニティ モビリティ データブロックが含まれており、お客様は、ここでキュレートされた探索環境と目的が明示されたダッシュボードを使用して、一般公開データセットの分析を迅速に行えます。ダッシュボードと探索環境には、こちらからどなたでもアクセスできます。Looker Demographic データブロックには、アメリカ地域社会調査の人口統計情報が格納されています。
https://storage.googleapis.com/gweb-cloudblog-publish/images/demographic_information.max-1800x1800.jpg
https://storage.googleapis.com/gweb-cloudblog-publish/images/acs_census_overview.max-2000x2000.jpg

COVID-19 のデータ公開に適したツールを構築 - Google Cloud とパートナーの SADA は、現場でのパンデミックの様相を確認するために複数のデータセットを組み合わせるオープンデータ プラットフォームである National Response Portal2020 年上旬に共同で構築しました。オクラホマ州保健省と同州知事室は、COVID-19 の一般公開データセットと Looker データブロックを使用して、発症例を監視し、住民に通知するため、州のウェブサイトにダッシュボードを構築しました。

自然をより深く理解できるよう、気象データセット、天候データセット、GIS データセットを階層化 - 気象と天候は、多くの人が探索するデータセットです。BigQuery 内で、コロンビア大学ラモントドハティ地球観測研究所と Pangeo プロジェクトとの共同作業で得られた天候シミュレーション データを探索できます。また、世界気候研究計画は、第 6 期結合モデル相互比較プロジェクト(CMIP6)のデータ アーカイブを公表しました。このデータセットは、継続的に更新される予定で、最終的には 20 PB のデータを格納できます。その他の天候関連データセットとしては、雷とハリケーンに関する NOAA のデータセット、1920 年から現在までの米国の郵便番号エリア単位での日次気象報告を格納した Looker の気象データブロックが挙げられます。

衛星データを取り込み、気温などのデータ特性を基に山火事を監視するプラットフォームを GlideFinder がどのように構築したかをご覧ください。また、こちらでは、Colab ノートブックを使用して、世界各地の毎日の気温データを分析する方法をご覧いただけます。Looker では、気象ブロックを活用して気象データを分析し、気象データを自身のデータソースに結合して、天候が自身のビジネスに及ぼしていると考えられる影響の全体像を把握できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/GlideFinder_built_a_platform.max-800x800.jpg

ゲノムデータを使用して、食の安全性を改善 - Google のイネゲノム データセットは、アジアで栽培されている 3,000 種類を超えるイネのゲノムにおける遺伝的変異、母集団構造、多様性を分析する Rice 3K データセットを基に作成されています。Google の研究者は、米の収穫量を増やす遺伝子改良の促進によって食の安全を向上させることを目標に、DeepVariant を使用してこのデータセットの再分析を行いました。

ブロックチェーン データセットを使用して、暗号通貨を理解 - Google の一般公開データセット プログラムには、暗号通貨ブロックチェーン データセットが含まれているため、この最先端のコンセプトをより深く理解していただくのに役立ちます。このデータセットは、ビットコインやイーサリアムなどのブロックチェーン トランザクション履歴であり、マルチチェーン メタ分析および従来の金融レコード処理システムとの統合と実現するためのクエリとビューも利用できます。

一般公開データセットの使用を開始

Google は、常に、アナリストと研究者の方々に多種多様な原因や事柄について理解を深めるために一般公開データセットを使用していただきたいと考えています。2020 年には、Google の COVID-19 専門データセットや公衆衛生に関する他の一般公開データセットなど、COVID-19 と戦う上でデータがどのように役立つかについて、興味深く、希望の持てるニュースがもたらされました。Google Cloud は、ハイ パフォーマンス コンピューティングやその他の技術リソースを一般公開データセットとともに提供することにより、COVID-19 の学術研究を支援することができました。

注意すべき重要な点として、これらのデータセットの中身は、厳密に教育と研究のためにのみ公開されています。Google は、PHI または PII データを COVID-19 関連の一般公開データセットの一部として取り込んだり管理したりしていません。Google では、広く認知されている患者のプライバシーとデータ セキュリティ ポリシーに従ってデータが処理されるように、プラクティスとポリシーを定めています。

BigQuery での一般公開データセット活用についてご参考になれば幸いです。ぜひ、BigQuery サンドボックスをお試しください。データセットについてご意見がありましたら、Google のリクエスト トラッカーにお寄せください。

詳細: 

-Google Cloud 一般公開データ担当責任者 Michael Hamamoto Tribble

投稿先