BigQuery 公开数据集

Cloud Public Datasets Program 目录位于 GCP Marketplace 中。您可以查看数据集部分中的 Marketplace 页面,获取各个数据集的更多详细信息。

转到 GCP Marketplace 中的数据集

公共数据集是存储于 BigQuery ,并通过 Google Cloud 公共数据集计划提供给公众的任何数据集。公共数据集是由 BigQuery 托管的数据集,可供您访问并集成到您的应用中。Google 会支付这些数据集的存储费用,并通过一个项目提供对数据的公开访问权限。您只需为对数据执行的查询付费。每月免费处理前 1 TB 数据,具体参阅查询价格详情

准备工作

您可以使用旧版 SQL 或标准 SQL 查询对公共数据集进行分析。您可通过以下方式访问 BigQuery 公共数据集:使用 Cloud Console 中的 BigQuery 网页界面经典版 BigQuery 网页界面命令行工具,或者使用 Java.NETPython 等多种客户端库调用 BigQuery REST API

要开始使用 BigQuery 公共数据集,您必须先创建或选择一个项目。我们提供每月免费处理 1 TB 数据,因此您无需启用结算功能即可开始查询公开数据集。如果您打算处理的数据量超出免费层级范围,则还必须启用结算功能。

  1. 登录您的 Google 帐号。

    如果您还没有 Google 帐号,请注册新帐号

  2. 在 GCP Console 的项目选择器页面上,选择或创建 GCP 项目。

    转到项目选择器页面

  3. 确保您的 Google Cloud Platform 项目已启用结算功能。 了解如何确认您的项目已启用结算功能

  4. 新项目中会自动启用 BigQuery。如需在现有项目中启用 BigQuery,请转到 启用BigQueryAPI。

    启用 API

公开数据集位置

目前,BigQuery 示例表存储在 US 多区域位置。当您查询示例表时,请在命令行中添加 --location=US 标志,在 Cloud Console 或经典版 BigQuery 网页界面中选择 US 作为处理位置,或在使用此 API 时指定作业资源jobReference 部分中的 location 属性。由于示例表存储在 US,因此您无法将示例表查询结果写入另一区域中的表,也无法将示例表与其他区域中的表连接。

通过 BigQuery 网页界面访问公共数据集

您可以使用两个用户界面访问公共数据集:

bigquery-public-data 项目会自动固定到这两个界面中的每个项目。您可以在导航窗格中找到该项目。

要手动打开 bigquery-public-data 项目,您可以执行以下操作:

  • 在浏览器输入以下网址,在经典版 BigQuery 网页界面中打开公共数据集:https://bigquery.cloud.google.com/
  • 输入以下网址,在 Cloud Console 的 BigQuery 网页界面中打开公共数据集:https://console.cloud.google.com/bigquery?project=bigquery-public-data&page=project

若要从 Cloud Console 切换到经典版网页界面,请参阅切换到经典版网页界面

其他公共数据集

另外还有很多公开数据集可供查询,其中一些也由 Google 托管,但更多则是由第三方托管。其他数据集包括:

与公众共享数据集

您可以更改数据集的访问权限控制以允许“所有经过身份验证的用户”访问,从而公开您的任何数据集。要详细了解如何设置数据集访问权限控制,请参阅控制对数据集的访问权限

当您与公众共享数据集时:

  • 与包含此公开分享的数据集的项目连接的结算帐号会产生存储费用。
  • 与运行查询作业的项目相连接的结算帐号会产生查询费用。

如需了解详情,请参阅费用结算方式

示例表

公共数据集之外,BigQuery 还提供了有限数量的示例表供您查询。这些表包含在 bigquery-public-data:samples 数据集中。

查询 BigQuery 示例表的要求与查询公共数据集的要求相同。

bigquery-public-data:samples 数据集包含以下表:

名称 说明
gsod 包含 NOAA 收集的天气信息,例如 1929 年末至 2010 年初的降水量和风速。
github_nested 包含操作的时间轴,例如,针对采用嵌套架构的 GitHub 代码库的拉取请求和注释。创建于 2012 年 9 月。
github_timeline 包含操作的时间轴,例如,针对采用平面架构的 GitHub 代码库的拉取请求和注释。创建于 2012 年 5 月。
natality 描述 1969 年至 2008 年期间在美国的 50 个州、哥伦比亚特区和纽约市登记的所有出生人数。
shakespeare 包含莎士比亚作品的字词索引,并提供了每个字词在各文集中出现的次数。
trigrams 包含在 1520 年至 2008 年期间出版的作品样本中的英语三字母组。
wikipedia 包含 2010 年 4 月之前的所有维基百科文章的完整修订历史记录。

与我们联系

如果您对 BigQuery 公开数据集计划有任何疑问,请通过 bq-public-data@google.com 联系我们。

此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页
需要帮助?请访问我们的支持页面