公開資料集

存取及分析 Google Cloud Platform 託管的多項公開資料集

免費試用

存取及分析資料

Google Cloud Platform 的公開資料集讓使用者能輕鬆存取及分析雲端上的資料。這些資料集存放在不同的資料倉儲中,並導入了各種數據分析軟體 (例如開放原始碼 Apache Spark 以及 Google BigQuery、Google Cloud Dataflow 等尖端 Google 技術),可供使用者免費取用。從結構化的基因體學或百科資料,到非結構化的氣候資料,Public Datasets 能為不熟悉大數據與資料分析的新手提供練習環境,至於技巧熟稔的研究人員,則可將其當做功能強大的資料存放區。您也可以將其整合到您的應用程式中,為使用者提供寶貴的實用資訊。無論您的用途是什麼,都可以在 GCP 上免費取用這些資料集。

存取及分析資料

Google BigQuery 公開資料集

BigQuery 提供多項公開資料集,可透過您熟悉的 SQL 進行分析。使用者能在 BigQuery 網頁 UI 中直接查詢這些資料,或使用 BigQuery REST API 進行程式化查詢。所有人都能免費取用這些資料集。您每個月最多可免費查詢 1TB 的資料量,若使用量超出免費配額,則超出部分需要付費。相關規定請參閱費率標準

如何在無需信用卡的情況下每月執行 1 TB 的 Google BigQuery 查詢作業影片
Querying BigQuery 公開資料集

Google Genomics 公開資料集

Google 與基因體研究社群合作,為其託管特定基因體學資料 (如 1000 Genomes Project),以公共資源的形式開放給大眾取用。您可以透過 Google Genomics API、BigQuery 網頁介面及開放原始碼範例來存取這些資料集。

Google Genomics 公開資料集

地理圖像資料集

Google Cloud Storage 目前提供了 Landsat 與 Sentinel 衛星影像資料集,以及 NEXRAD Doppler 雷達資料集。您可以使用 GCP 來執行分析及開發新產品,不用擔心儲存資料的成本,或是下載極為龐大的資料集所需要的時間與費用。

除了 Google Cloud Storage 託管的前述資料集之外,Earth Engine 也提供了極為豐富的標準地球科學光柵資料集。Earth Engine 採用便利的網頁式程式碼編輯器,有助於加快及簡化複雜的地理空間開發工作流程。

地理圖像資料集

BigQuery 資料集

Bay Area Bike Share Trips
這項資料包括從 2013 年 8 月至今所有的 Bay Area Bike Share 行程,且每日更新。 瞭解詳情
GDELT Book Corpus
內含兩世紀以來 350 萬本數位化書籍的資料集,其中收錄了 HathiTrust (220 萬卷藏書) 以及 Internet Archive (130 萬卷藏書) 中收藏的所有英語公版資源。 瞭解詳情
GitHub Data
這項公開資料集內含 280 萬個以上的開放原始碼 GitHub 存放區的 GitHub 活動資料、1 億 4500 萬個不重複的修訂版本、超過 20 億個不同檔案路徑,以及 1 億 6300 萬個檔案的最新修訂版本內容。 瞭解詳情
IRS Form 990 Data
內含美國非營利/免稅機構財務資訊的資料集,取自於美國國家稅務局 (IRS) 所收到的稅務申報書 (Form 990)。 瞭解詳情
Stack Overflow Data
這項公開資料集內含 Stack Overflow 的封存內容,包括訊息、投票、標記和徽章等。 瞭解詳情
San Francisco Street Trees Data
這項資料內含美國舊金山公務局負責管理的行道樹清單,包括種植日期、樹種和位置等。 瞭解詳情
San Francisco Police Reports Data
這項資料內含從 2003 年 1 月至今,舊金山警局 (SFPD) 犯罪事件舉報系統中登錄的事件。 瞭解詳情
San Francisco Fire Department Service Calls Data
這項資料內含從 2000 年 4 月至今消防隊接獲報案後的回應內容資訊,且每日更新。其中的資料包括電話號碼、事件編號、地址、分隊別、報案類型和處理方式。 瞭解詳情
San Francisco 311 Service Requests Data
這項資料內含從 2008 年 7 月至今舊金山 311 服務專線所收到的所有要求內容,且每日更新。 瞭解詳情
USA Names
由美國社會安全局提供的資料集,內含美國自 1879 年起所有出生者在社會安全卡申請資料上的登記姓名。 瞭解詳情
USA Disease Surveillance
由美國衛生及公共服務部發佈的資料集,收錄所有美國城市與州郡在 1888 年至 2013 年間發表的法定傳染病每週監控報告。 瞭解詳情
USA Bureau of Labor Statistics
這項資料集內含美國勞工統計局 (BLS) 針對通貨膨脹、物價、失業人口數、薪資與福利提供的經濟統計資料。 瞭解詳情
Hacker News
內含 Hacker News 自 2006 年推出以來所有報導與評論的資料集。瞭解詳情
Major League Baseball Data
這項公開資料內含美國職棒大聯盟 (MLB) 2016 年賽事的逐球記錄。 瞭解詳情
Medicare Data
這項公開資料集是由美國聯邦醫療保險與醫療補助服務中心所建立,其中摘要收錄各項醫療程序與服務的使用率與給付狀況,以及提供給醫療保險受益人的處方藥物。 瞭解詳情
NOAA GSOD Weather Data
這項公開資料集是由美國國家海洋暨大氣總署 (NOAA) 建立的,內含來自美國空軍氣候學中心的全球資料。這項資料集內容涵蓋 1929 到 2016 年間,從 9000 餘個氣象站收集而來的 GSOD 資料。 瞭解詳情
NOAA GHCN
這項公開資料集是由美國國家海洋暨大氣總署 (NOAA) 建立的,內含全球地表觀測站的氣候摘要資料,且資料已通過同一套品管程序的審核。資料集共有超過 20 處來源,其中部分為 1763 年以來的逐年資料。 瞭解詳情
NYC TLC Trips
由紐約市計程車暨禮車管理局 (TLC) 收集而來的資料,內含 2009 年至今紐約市所有黃色與綠色計程車的載客記錄。 瞭解詳情
NYC 311 Service Requests
這項公開資料包含 311 服務專線自 2010 年至今收到的所有要求內容,這些資料會每日更新。311 是一種非緊急服務專線,可將來電者轉介給各項非緊急性市政服務。 瞭解詳情
NYC Citi Bike Trips
由紐約市 Citi Bike 自行車共用計劃收集到的資料,其中包含 Citi Bike 自 2013 年 9 月推出以來 10,000 輛自行車和 600 個站點 (範圍涵蓋曼哈頓、布魯克林區、皇后區和澤西市) 的行程記錄。 瞭解詳情
NYC Tree Census
這項紐約市行道樹資料包含 1995 年、2005 年與 2015 年的行道樹普查結果資料,普查是由紐約市公園休閒管理局招募的志工進行。 瞭解詳情
NYPD Motor Vehicle Collisions
這項資料集內含紐約市警局 (NYPD) 所提供的紐約市車禍事故詳細資料 (從 2012 年至今)。 瞭解詳情
Open Images Data
這項資料集內含約 900 萬筆圖片網址,註解標籤橫跨 6000 種以上類別。 瞭解詳情

地理圖像資料集

Landsat
由美國地質調查局 (USGS) 提供的衛星影像資料集,內含數百萬幅地球陸地表面的多譜段影像,解析度介於每像素 15 到 60 公尺間,拍攝年代為 1982 年至今。 瞭解詳情
Earth Engine 資料集
在 Earth Engine 的公開資料目錄中,您可以找到多項標準地球科學光柵的資料集。瞭解詳情
Sentinel-2
歐洲太空總署 (ESA) 提供的衛星影像資料集,內含地球地表的多光譜影像,解析度介於每像素 10 至 60 公尺之間,拍攝期間為 2015 年至今。 瞭解詳情
NEXRAD
天氣雷達資料集,當中的資料是由美國國家海洋暨大氣總署的國家氣象局 (NWS)、美國聯邦航空總署 (FAA) 和美國空軍 (USAF) 管理的 160 個高解析度 Doppler 天氣雷達所組成的網路收集而來。 瞭解詳情

基因體學資料集

1,000 Genomes
這項資料集內含全球 25 個人口族群約 2,500 組的基因體資料。 瞭解詳情
Reference Genomes
GRCh37、GRCh37lite、GRCh38、hg19、hs37d5 與 b37 等參考基因體。 瞭解詳情
Illumina Platinum Genomes
這項資料集內含由 17 名成員組成的 CEPH 系譜 1463。 瞭解詳情
Simons Genome Diversity Project
本資料集內含來自 13 個分屬於各種人口族群的 25 組基因體資料,以做為 Simons Genome Diversity Project 的先導專案資料集。 瞭解詳情
TCGA Cancer Genomics Data in the Cloud
開放使用的 TCGA 資料,內含 33 種不同腫瘤類型的體細胞突變調用資料、臨床資料、mRNA 與 miRNA 表現、DNA 甲基化與蛋白質表現。 瞭解詳情
自閉症研究人員的 MSSNG 資料庫
本資料集內含受自閉症影響家庭的 Illumina 和 Complete Genomics 基因體集合,此集合正不斷成長中。 瞭解詳情

公開資料集定價

凡是擁有 Google 帳戶就能免費取用 Google Cloud 公開資料集。大量查詢及其他特殊使用案例則可能需要付費。

  • BigQuery - 使用者可以在一定限額內免費取用 BigQuery 託管的公開資料集,查詢量上限為每月 1TB。每月超過 1TB 查詢量,則依查詢計價方式計費。
  • Google Cloud Storage - Google Cloud Storage 託管公開資料集,如光柵和基因體學資料,均可供免費取用。您只需要為用來分析資料的 GCP 資源支付費用,例如您的應用程式使用的運算資源或額外儲存空間。