公共数据集

访问和分析 Google Cloud Platform 上托管的各类公共数据集

免费试用

访问和分析数据

Google Cloud Platform 上的公共数据集为用户在云端访问和分析这些数据提供了便利。这些数据集均为免费托管,可通过各种数据仓库和分析软件访问,例如开源的 Apache Spark 以及 Google BigQuery 和 Google Cloud Dataflow 等前沿 Google 技术。从结构化的基因组或百科全书数据到非结构化的气候数据,公共数据集为大数据和数据分析领域的新手搭建了一个初学乍练的平台,同时为技术型研究人员提供了强大的资料库。您还可将其与自己的应用集成,进而为您的用户带来更多宝贵的数据洞见。无论用于何种场合,这些数据集均可在 GCP 上免费获取。

访问和分析数据

Google BigQuery 公共数据集

BigQuery 托管了各种可以使用您熟悉的 SQL 进行分析的公共数据集。用户可以直接在 BigQuery 网页界面中查询这些数据,或者使用 BigQuery REST API 以编程方式查询。这些数据集均为免费托管,所有人都可以访问。您每月可以免费查询 1TB 这类数据,而只需为超出此免费配额后执行的查询付费,具体以查询的定价详情为准。

“How to run a terabyte of Google BigQuery queries each month without a credit card”(如何在不提供信用卡的情况下每月运行 1 TB 的 Google BigQuery 查询)视频
查询 BigQuery 公共数据集

Google Genomics 公共数据集

Google 与基因组学界合作,托管了 1000 Genomes Project 等精选基因组数据,作为公共资源提供给广大用户。您可以通过 Google Genomics API、BigQuery 网页界面和开源示例访问这些数据集。

Google Genomics 公共数据集

地理图像数据集

Google Cloud Storage 提供了 Landsat 和 Sentinel 卫星图像数据集,以及 NEXRAD 多普勒雷达数据集。 您可以使用 GCP 来执行分析以及开发新产品,而无需担心数据的存储成本或是下载非常大的数据集所需的时间和成本。

除了 Google Cloud Storage 上托管的这些数据集之外,Earth Engine 中还提供了种类多样的标准地球科学栅格数据集。Earth Engine 提供一种方便的基于网页的代码编辑器,旨在使开发复杂地理空间应用的工作流程变得简单快捷。

地理图像数据集

BigQuery 数据集

Bay Area Bike Share Trips
这些数据包括 2013 年 8 月至今的所有湾区单车共享行程,并会每天更新。 了解详情
GDELT Book Corpus
此数据集包含近两个世纪发行的共 350 万册数字化图书,其中完整收录了 Internet Archive(130 万册)和 HathiTrust(220 万册)公共领域的所有英文版书目。 了解详情
GitHub Data
此公共数据集包含超过 280 万个开源 GitHub 代码库、超过 1.45 亿次不重复提交、超过 20 亿个不同文件路径的活动数据,以及 1.63 亿个文件的最新版本内容。 了解详情
IRS Form 990 Data
此数据集包含美国非营利/免税组织的财务信息,这些信息由国税局 (Internal Revenue Service, IRS) 采用 990 表 (Form 990) 收集。 了解详情
Stack Overflow Data
此公共数据集包含 Stack Overflow 内容的归档,包括帖子、投票、标签和徽章。 了解详情
San Francisco Street Trees Data
这些数据包括旧金山公共工程部维护的行道树清单,其中包括栽植日期、树种和位置。 了解详情
San Francisco Police Reports Data
这些数据包括 2003 年 1 月至今的旧金山警察局 (San Francisco Police Department, SFPD) 犯罪案件报告系统中的案件。 了解详情
San Francisco Fire Department Service Calls Data
这些数据包括 2000 年 4 月至今的消防部门接警记录,并会每天更新。数据包含来电号码、事故编号、地址、单位标识、报警类型和处理情况。 了解详情
San Francisco 311 Service Requests Data
这些数据包括 2008 年 7 月至今的所有旧金山 311 服务请求,并会每天更新。 了解详情
USA Names
美国社会安全署 (Social Security Administration) 的数据集,其中包含 1879 年以来在美国提交的新生儿社会安全卡申请的所有姓名。 了解详情
USA Disease Surveillance
美国卫生和公众服务部 (US Department of Health and Human Services) 发布的数据集,其中包括 1888 年至 2013 年期间发布的美国所有城市和各个州的全国性通报疾病的每周监测报告。 了解详情
USA Bureau of Labor Statistics
此数据集包括由美国劳工统计局 (Bureau of Labor Statistics, BLS) 提供的关于通货膨胀、价格、失业以及薪资福利的经济统计数据。 了解详情
Hacker News
此数据集包含 Hacker News 自 2006 年上线以来的所有报道和评论。了解详情
Major League Baseball Data
这些公共数据包括 2016 年美国职业棒球大联盟 (Major League Baseball, MLB) 每场比赛的数据。 了解详情
Medicare Data
此公共数据集由美国医疗保险和医疗补助服务中心 (Centers for Medicare & Medicaid Services) 创建。 这些数据总结了向医疗保险受益人提供的医疗程序、服务及处方药的使用和支付情况。 了解详情
NOAA GSOD Weather Data
此公共数据集由美国国家海洋和大气管理局 (National Oceanic and Atmospheric Administration, NOAA) 创建,其中包括从美国空军气象中心 (USAF Climatology Center) 获取的全球数据。此数据集涵盖了 1929 年至 2016 年间从超过 9000 个站点收集的 GSOD 数据。 了解详情
NOAA GHCN
此公共数据集由美国国家海洋和大气管理局 (NOAA) 创建,其中包括来自全球地面监测站的气候摘要,相应数据已进行过一整套质量保证审查。此数据集来自 20 余个数据源,其中部分数据为 1763 年以来的逐年数据。 了解详情
NYC TLC Trips
这些数据由纽约市出租车及礼车委员会 (Taxi and Limousine Commission, TLC) 收集,其中包括 2009 年至今纽约市黄色和绿色出租车完成的所有行程的记录。 了解详情
NYC 311 Service Requests
这些公共数据包括 2010 年至今的所有 311 服务请求,并会每天更新。311 是提供非紧急市政服务的非紧急电话号码。 了解详情
NYC Citi Bike Trips
纽约市花旗单车 (Citi Bike) 共享计划收集的数据,包括自 2013 年 9 月启动花旗单车计划以来,曼哈顿区、布鲁克林区、皇后区和泽西市的 10,000 辆单车和 600 个停车点的行程记录。 了解详情
NYC Tree Census
这些纽约市行道树数据包括由纽约市公园和娱乐部 (Department of Parks and Recreation) 组织的志愿者分别于 1995 年、2005 年及 2015 年开展的行道树普查的数据。 了解详情
NYPD Motor Vehicle Collisions
此数据集包括由纽约市警察局 (Police Department, NYPD) 提供的 2012 年至今的纽约市机动车辆交通事故详细情况。 了解详情
Open Images Data
此数据集包含大约 900 万个图片网址,这些图片使用 6000 多个类别的标签做了标注。 了解详情

地理图像数据集

Landsat
来自美国地质调查局 (United States Geological Survey, USGS) 的卫星图像数据集,其中包括 1982 年至今地球陆地表面的数百万幅多光谱图像,分辨率为每像素 15 至 60 米。 了解详情
Earth Engine 数据集
Earth Engine 的公共数据目录,其中包括大量标准地球科学栅格数据集。了解详情
Sentinel-2
由欧洲空间局 (European Space Agency, ESA) 提供的卫星图像数据集,其中包括 2015 年至今地球陆地表面的多光谱图像,分辨率为每像素 10 至 60 米。 了解详情
NEXRAD
一个天气雷达数据集,其中的数据收集自 NOAA 美国国家气象局 (National Weather Service, NWS)、美国联邦航空管理局 (Federal Aviation Administration, FAA) 和美国空军 (U.S. Air Force, USAF) 运营的雷达网络,该网络由 160 个高分辨率多普勒天气雷达组成。 了解详情

基因组数据集

1,000 Genomes
此数据集包括来自世界各地 25 个种群的大约 2500 个人的基因组。 了解详情
Reference Genomes
GRCh37、GRCh37lite、GRCh38、hg19、hs37d5 和 b37 等参考基因组。 了解详情
Illumina Platinum Genomes
此数据集包括 17 个成员的 CEPH 谱系 1463 数据。 了解详情
Simons Genome Diversity Project
此数据集包含来自 13 个不同种群的 25 个人的基因组,作为 Simons Genome Diversity Project 试验性计划的数据集。 了解详情
TCGA Cancer Genomics Data in the Cloud
向公众开放的 TCGA 数据,包括 33 种不同肿瘤类型的体细胞突变调用、临床数据、mRNA 和 miRNA 表达、DNA 甲基化和蛋白表达。 了解详情
MSSNG Database for Autism Researchers
此数据集包含一些受自闭症影响的家庭的基因组信息,这些数据来自 Illumina 和 Complete Genomics 公司,数量还在不断增长。 了解详情

公共数据集价格

Google Cloud 公共数据集可以通过 Google 帐号免费访问。在查询量大的情况下和某些使用场景中,您可能需要支付费用。

  • BigQuery - 对于 BigQuery 中托管的公共数据集,用户每月可免费查询多达 1TB 数据。超过 1TB/月限制的查询则按查询价格收取相应费用。
  • Google Cloud Storage - Google Cloud Storage 中托管的公共数据集(例如栅格和基因组数据)可以免费访问。您只需为分析数据所用的 GCP 资源付费,例如应用使用的计算资源或其他存储空间。