データ分析

CARTO とのコラボレーションにより BigQuery 一般公開データセットで新しい地理空間データが利用可能に

gcp_carto.jpg

※この投稿は米国時間 2019 年 10 月 19  日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud では、Google のエンタープライズ データ ウェアハウジング プラットフォームである BigQuery を使用して、天気、交通、住宅などのデータを含む、多くの一般公開データセットをホストしています。ユーザーはこの一般公開データを使用してデータ分析を行い、それを自分のデータと組み合わせて、知見を見いだすことができます。この度、CARTO との新たなコラボレーションにより、BigQuery 一般公開データセット プログラムに、価値あるロケーションベースの地理空間データセットが加わりました。空間データはコミュニティの取り組みなしには得られないものです。これにより、GIS データの利用、分析、可視化において、新たな可能性が広がります。

このコラボレーションにより、BigQuery を利用したロケーション インテリジェンス プラットフォーム、CARTO Data Observatory 2.0 を使用して、簡単にデータにアクセスし、地理空間分析を行えるようになります。 

現在利用できるデータセットは、アメリカ合衆国国勢調査局の American Community Survey(ACS)です。American Community Survey は、世界で最も価値ある一般公開データセットの一つです。これは、国勢調査と同じように、極めて高い空間解像度で属性、人口、住宅のデータを提供します。国勢調査と異なるのは、このデータが毎年収集、集計、更新されることです。そのため、ビジネスや民間の、あるいは学究的なイニシアチブをサポートするための強力なツールとなります。

たとえば、以下のクエリは、ブルックリンの 2010 年と 2017 年の平均収入のデータを取得し、その違いを計算して、それを国勢調査細分区グループのデータセットに結合する SQL を示しています。この結果は地図上で可視化されます。

  --Calculating the difference on median income in Brooklyn by BlockGroup from 2010 to 2017
WITH acs_2017 AS (
  SELECT geo_id, median_income AS median_income_2017
  FROM `bigquery-public-data.census_bureau_acs.blockgroup_2017_5yr`  
  WHERE geo_id LIKE '36047%' --Selecting Brooklyn
),

acs_2010 AS (
  SELECT geo_id, median_income AS median_income_2010
  FROM `bigquery-public-data.census_bureau_acs.blockgroup_2010_5yr` 
  WHERE geo_id LIKE '36047%' --Selecting Brooklyn
),

acs_diff AS (

SELECT
  a17.geo_id, a17.median_income_2017, a10.median_income_2010, geo.blockgroup_geom,
  a17.median_income_2017 - a10.median_income_2010 AS median_income_diff
FROM acs_2017 a17
JOIN acs_2010 a10
  ON a17.geo_id = a10.geo_id
JOIN `bigquery-public-data.geo_census_blockgroups.us_blockgroups_national` geo
  ON a17.geo_id = geo.geo_id
)

SELECT * FROM acs_diff WHERE median_income_diff IS NOT NULL

これを実際に確認するため、CARTO チームは、この SQL クエリを BigQuery に対して実行し、それを CARTOframes で可視化する、短い Google Colab Python Notebook を作成しました。これをご自分で実行するには、こちらの Google Colab を開き、BigQuery にアクセスできる Google アカウントで認証するだけです。次に示すように、このクエリを実行すると、ブルックリンのいくつかの地区がすぐに強調表示されます。

Calculating_the_median_income_difference.gif

この ACS データセットは、ご自分の BigQuery 分析で使い始めることができます。あるいは、BigQuery GIS で提供されているフィルタや述語を使用して、ご自分の地理データを一般公開データセットと結合することもできます。 

今後数週間で、さらに 3 つの一般公開データセットが提供され、その後も続々と提供される予定です。

  • アメリカ合衆国労働統計局(BLS)の経済データ: アメリカ合衆国労働統計局は、経済と雇用のデータに関する米国政府の権威ある情報源です。同局は、米国労働市場の強さについて、さまざまな期間と地域で集計された、極めて詳細なデータを提供しています。CARTO はそのテクノロジーを応用して、このデータを理解しやすく、使いやすいものにします。

  • CARTO によってクリップされた、TIGER/Line ファイルの米国海岸線: アメリカ合衆国国勢調査局は毎年、国内の政治的および統計的な境界を表す、詳細な境界ファイルを公開しています。同局は国の海岸線の境界を定義するファイルを公開していますが、これらは陸と海の境界に必ずしも厳密に合致しているわけではありません。CARTO はその専門技術を応用して境界線をクリップすることで、海岸線との合致精度を高めています。これにより、データを 7.9 兆ドル規模の米国沿岸経済地域と効果的に結び付けることができます。

  • Who's on First: 世界中の地名に関するオープンソースのデータベース(膨大なリスト)である Who's on First は、独自の作業と既存のオープン データセットを組み合わせたもので、膨大で柔軟性のある、極めて詳細な地名辞書となっています。データセット内の各地名は、その地名に関する固定の識別子といくつかの説明的なプロパティを保持しています。データセットは慎重に構築と更新が行われているため、安心してさまざまなプロジェクトで利用できます。

CARTO Data Observatory 2.0 と BigQuery GIS の使用

CARTO の空間データ リポジトリの最新バージョンである Data Observatory 2.0 は、一般公開データへのアクセスを簡素化し、共通の地理情報ベースを使用してデータ結合による空間分析を容易にすることで、GIS プロフェッショナルやデータ サイエンティストが時間を節約できるよう支援します。地理空間データセットのインポートと維持では、ファイル形式やジオメトリの検証が必要になるなど、課題が生じることもあります。これらのデータセットは、CARTO チームにより、BigQuery 内で維持しやすいリファレンスとして作成されているため、CARTO と BigQuery のどちらでも簡単に使えます。また、CARTO チームは自社のテクノロジー スタックにおいて、BigQuery のネイティブな GIS 機能を活用しています。

CARTO 設立者で最高戦略責任者の Javier de la Torre 氏は、次のように述べています。「私たちが Data Observatory で BigQuery を使用することを選んだのは、大規模な地理空間分析を幅広いユースケースで実施できるからです。Google Cloud がこうしたデータセットをホストし、顧客がストレージ費用を負担する必要がないことにも満足しています。また、分析で一般公開データセットを参照するのも、自前のデータを扱うのと同様に簡単で効率的です。読み込みもコピーも必要ありません。ただ、データを操作して結果を見るだけです。」 

以下に、CARTO がどのように Google Cloud を自社アーキテクチャに組み込んでいるかを示します。

carto_spatial_data_infrastructure.max-1300x1300.png

BigQuery やその他の Google Cloud サービスを利用した、CARTO の空間データ インフラストラクチャに関する記事もご覧ください。

これらの新しいデータセットを利用することで、地理空間分析プロジェクトに新たな可能性が広がります。利用を始めるには、BigQuery GIS のドキュメントを参照し、CARTO Data Observatory または Google Cloud データセット マーケットプレイスから、これらの新しいデータセットの統合を開始してください。 

- by Shane Glass, Program Manager, Google Cloud Public Dataset Program and Soleil Kelley, Product Marketing Manager, Google Cloud