您可以将 Google Cloud Console 用作可视界面来完成诸如运行查询,加载数据和导出数据之类的任务。本快速入门向您介绍了如何查询公共数据集中的表,以及如何使用 Cloud Console 将示例数据加载到 BigQuery 中。
准备工作
查询公共数据集
Cloud Console 提供了用于查询表(包括由 BigQuery 提供的公共数据集)的界面。
在此示例中,您将查询美国姓名数据公共数据集,以确定 1910 年至 2013 年间美国人最常用的姓名。
默认情况下,BigQuery 公开数据集会显示在 Cloud Console 中。如需手动打开公共数据集项目,请在浏览器中输入以下网址:
https://console.cloud.google.com/bigquery?p=bigquery-public-data&page=project
如需查询公共数据集中的数据,请按照以下步骤操作:
转到 Cloud Console 中的 BigQuery 页面。
点击编写新查询。如果此文本呈灰显状态,则表示查询编辑器已经打开。
将以下查询复制并粘贴到查询文本区域中。
SELECT name, gender, SUM(number) AS total FROM `bigquery-public-data.usa_names.usa_1910_2013` GROUP BY name, gender ORDER BY total DESC LIMIT 10
如需查看查询验证器,请点击绿色对勾标记。
如果查询有效,则会显示一个绿色对勾标记。如果查询无效,则会显示一个红色感叹号。如果查询有效,在您运行查询后,验证程序还会显示查询要处理的数据量。处理的数据量有助于确定运行查询的费用。
点击 运行。查询结果页面显示在查询窗口下方。查询结果页面顶部会显示所用的时间和查询处理的数据。在
Query complete...
消息下方,您会看到一个显示查询结果的表,其中的标题行包含了您在查询中选择的每个列的名称。
将数据加载到表中
接下来,要将数据加载到表中并查询该表。
下载数据
您下载的文件包含约 7 MB 的关于热门婴儿名字的数据(由美国社会保障管理局提供)。
下载婴儿姓名 ZIP 文件。
将该文件解压缩到您的计算机上。
该 ZIP 文件中包含一个描述数据集的
NationalReadMe.pdf
文件。 详细了解该数据集。打开名为
yob2014.txt
的文件,查看其具体内容。该文件是一个英文逗号分隔值 (CSV) 文件,其中包含以下三列:姓名、性别(M
或F
)和取该姓名的儿童人数。该文件没有标题行。请记下
yob2014.txt
文件的位置,以便于日后查找。
创建数据集
接下来,在 Cloud Console 中创建数据集来存储数据。
如有必要,请在 Cloud Console 中打开 BigQuery 页面。
在导航面板的资源部分,点击您的项目名称。
在右侧的详细信息面板中,点击创建数据集。
在 创建数据集 页面上,执行以下操作:
- 在数据集 ID 部分,输入
babynames
。 选择美国 (US) 作为数据位置。目前,公共数据集存储在
US
多地区位置。 为简单起见,请将数据集放在同一位置。
- 在数据集 ID 部分,输入
保留所有其他默认设置不变,然后点击创建数据集。
将数据加载到新表中
接下来,将数据加载到新表中。
在导航面板的资源部分中,点击您刚刚创建的 babynames 数据集。
在右侧的详细信息面板中,点击创建表。
除非另有说明,否则所有设置均使用默认值。
在 创建表格 页面上,执行以下操作:
- 在源部分,点击空表并选择上传。
- 在 选择文件 部分,点击 浏览,导航到
yob2014.txt
文件,然后点击 打开。 - 在文件格式部分,点击 Avro 并选择 CSV。
- 在目标位置部分的表名称中,输入
names_2014
。 在 架构 部分,点击 以文字形式修改 开关,并将以下架构定义粘贴到相应的框中。
name:string,gender:string,count:integer
点击创建表。
等待 BigQuery 创建表和加载数据。 在 BigQuery 加载数据期间,导航面板中的相应作业记录旁会显示 (1 running)(1 个作业正在运行)字符串。数据加载完毕之后,该字符串将消失。
预览表
(1 running) 字符串消失后,您便可以访问该表。如需预览前几行数据,请按照以下步骤操作:
在导航面板中,依次选择 babynames > names_2014。
在详细信息面板中,点击预览标签。
查询表
现在,您已将数据加载到表中,接下来可以对该表进行查询了。 此过程与前一个示例相同,只是这一次您查询的是自己的表,而非公共数据集中的表。
如果需要,请点击编写新查询按钮。除非您之前隐藏了查询窗口,否则它应该仍然可见。
将以下查询复制并粘贴到查询文本区域中。此查询检索 2014 年美国最热门的 5 个男婴名字。
SELECT name, count FROM `babynames.names_2014` WHERE gender = 'M' ORDER BY count DESC LIMIT 5
点击运行。查询结果会显示在查询窗口下方。
清理
为避免系统因本快速入门中使用的资源向您的 Google Cloud 帐号收取费用,请按照以下步骤操作。
如有必要,请在 Cloud Console 中打开 BigQuery 页面。
在导航面板的资源部分中,点击您创建的 babynames 数据集。
在右侧的详细信息面板中,点击删除数据集。此操作会删除相关数据集、表和所有数据。
在删除数据集对话框中,输入您的数据集的名称 (
babynames
),然后点击删除以确认删除命令。
后续步骤
如需详细了解如何使用 Cloud Console,请参阅使用 Cloud Console。
如需了解如何加载包含嵌套和重复数据的 JSON 文件,请参阅加载嵌套和重复的 JSON 数据。
如需详细了解如何将数据加载到 BigQuery 中,请参阅 加载数据简介。
如需详细了解如何查询数据,请参阅查询 BigQuery 数据概览。
如需详细了解如何以编程方式访问 BigQuery,请参阅 REST API 参考或 BigQuery 客户端库页面。