BigQuery 公共数据集

公共数据集是存储于 BigQuery,并通过 Google Cloud 公共数据集计划提供给公众的任何数据集。公共数据集是由 BigQuery 托管的数据集,可供您访问并集成到您的应用中。Google 会支付这些数据集的存储费用,并通过项目提供对数据的公开访问权限。您只需为对数据执行的查询付费。每月免费处理前 1 TB 数据,具体参阅查询价格详情

您可以使用旧版 SQL 或 GoogleSQL 查询对公共数据集进行分析。查询公共数据集时,请使用完全限定的表名称,例如 bigquery-public-data.bbc_news.fulltext。如果您的组织限制数据访问(例如使用安全边界),则可能需要与管理员联系以获得访问公共数据集的权限。

您可以通过以下方式访问 BigQuery 公共数据集:使用 Google Cloud 控制台、使用 bq 命令行工具,或者使用各种客户端库(例如 Java.NETPython)调用 BigQuery REST API。您还可以通过 Analytics Hub 查看和查询公共数据集,这是一个数据交换平台,可帮助您发现和访问数据库。

转到 Analytics Hub

您可以点击 Cloud Marketplace 的“数据集”部分中的相应数据集名称,详细了解各数据集。

转到 Cloud Marketplace 中的数据集

准备工作

要开始使用 BigQuery 公共数据集,您必须先创建或选择一个项目。我们提供每月免费处理 1 TB 数据,因此您无需启用结算功能即可开始查询公共数据集。如果您打算处理的数据量超出免费层级范围,则还必须启用结算功能。

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  5. 确保您的 Google Cloud 项目已启用结算功能

  6. 新项目会自动启用 BigQuery。如需在现有项目中启用 BigQuery,请转到

    启用 BigQuery API。

    启用 API

公共数据集位置

每个公共数据集都存储在一个特定位置,例如 USEU。目前,BigQuery 示例表存储在 US 多区域位置。在查询示例表时,请在命令行中提供 --location=US 标志,在 Google Cloud 控制台中选择 US 作为处理位置,或者在使用 API 时,在作业资源jobReference 部分中指定 location 属性。由于示例表存储在 US,因此您无法将示例表查询结果写入另一区域中的表,也无法将示例表与其他区域中的表连接。

访问 Google Cloud 控制台中的公共数据集

您可以通过以下方法在 Google Cloud 控制台中访问公共数据集:

如需了解数据表的上次更新时间,请转到相应表的详细信息部分(如获取表信息中所述),然后查看上次修改日期字段。

其他公共数据集

还有很多其他公共数据集可供您查询,其中一些也由 Google 托管,但更多则是由第三方托管。其他数据集包括:

公开数据集

您可以更改数据集的访问权限控制以允许“所有经过身份验证的用户”访问,从而公开您的任何数据集。要详细了解如何设置数据集访问权限控制,请参阅控制对数据集的访问权限

当您公开数据集时:

  • 与包含该公开共享的数据集的项目关联的结算账号会产生存储费用。
  • 与运行查询作业的项目相连接的结算账号会产生查询费用。

如需了解详情,请参阅 BigQuery 价格概览

示例表

公共数据集之外,BigQuery 还提供了有限数量的示例表供您查询。这些表包含在 bigquery-public-data:samples 数据集中。

查询 BigQuery 示例表的要求与查询公共数据集的要求相同。

bigquery-public-data:samples 数据集包含以下表:

名称 说明
gsod 包含 NOAA 收集的天气信息,例如 1929 年末至 2010 年初的降水量和风速。
github_nested 包含操作的时间轴,例如,针对采用嵌套架构的 GitHub 代码库的拉取请求和注释。创建于 2012 年 9 月。
github_timeline 包含操作的时间轴,例如,针对采用平面架构的 GitHub 代码库的拉取请求和注释。创建于 2012 年 5 月。
natality 描述 1969 年至 2008 年期间在美国的 50 个州、哥伦比亚特区和纽约市登记的所有出生人数。
shakespeare 包含莎士比亚作品的字词索引,并提供了每个字词在各文集中出现的次数。
trigrams 包含在 1520 年至 2008 年期间出版的作品样本中的英语三字母组。
wikipedia 包含 2010 年 4 月之前的所有维基百科文章的完整修订历史记录。

与我们联系

如果您对 BigQuery 公共数据集计划有任何疑问,请通过 bq-public-data@google.com 联系我们。

后续步骤

如需了解如何查询公共数据集中的表,请参阅快速入门:使用 Google Cloud 控制台