加载和查询数据
首先,创建数据集,将数据加载到表中,然后查询该表,开始使用 BigQuery。
如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示:
准备工作
探索 BigQuery 之前,您必须登录Google Cloud 控制台并创建项目。如果您未在项目中启用结算功能,则您上传的所有数据都将位于 BigQuery 沙盒中。沙盒使您可以免费学习 BigQuery,同时使用一组有限的 BigQuery 功能。如需了解详情,请参阅启用 BigQuery 沙盒。- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
- 可选:如果您选择现有项目,请确保启用 BigQuery API。新项目会自动启用 BigQuery API。
- 在 Google Cloud 控制台中,打开 BigQuery 页面。 前往 BigQuery
- 在
探索器 窗格中,点击您的项目名称。 - 点击 查看操作。
- 选择创建数据集。
- 在 创建数据集 页面上,执行以下操作:
- 在数据集 ID 部分,输入
babynames
。 - 对于位置类型,请选择多区域,然后选择美国(美国的多个区域)。公共数据集存储在
us
多区域位置。为简单起见,请将数据集存储在同一位置。 - 保持其余默认设置不变,然后点击
创建数据集 。 在新的浏览器标签页中打开以下网址,下载美国社会保障管理局的数据:
https://www.ssa.gov/OACT/babynames/names.zip
提取文件。
如需详细了解数据集架构,请参阅 ZIP 文件的
NationalReadMe.pdf
文件。如需查看数据,请打开
yob2024.txt
文件。此文件包含姓名、出生时指定的性别和使用该姓名的儿童人数的英文逗号分隔值。该文件没有标题行。请记下
yob2024.txt
文件的位置,以便于日后查找。- 在
探索器 窗格中,展开您的项目名称。 - 在 babynames 数据集旁边,点击 查看操作,然后选择打开。
- 点击
除非另有说明,否则请使用所有设置的默认值。
创建表。
- 在 创建表格 页面上,执行以下操作:
- 在来源部分,对于
基于以下数据源创建表 ,从列表中选择上传。 - 在选择文件字段中,点击浏览。
- 找到并打开您的本地
yob2024.txt
文件,然后点击打开。 - 从
文件格式 列表中,选择 CSV。 - 在目标部分的
表 字段中,输入names_2024
。 - 在架构部分,点击
以文本形式修改 切换开关,并将以下架构定义粘贴到文本字段中: - 点击
创建表 。等待 BigQuery 创建表和加载数据。
- 在
探索器 窗格中,展开您的项目和babynames
数据集,然后选择names_2024
表。 - 点击
预览 标签页。BigQuery 会显示表的前几行。 - 点击 names_2024 标签页旁边的 SQL 查询选项。系统随即会打开一个新的编辑器标签页。
- 在查询编辑器中,粘贴以下查询。此查询可检索美国 2024 年新生男婴最热门的 5 个名字。
SELECT name, count FROM `babynames.names_2024` WHERE assigned_sex_at_birth = 'M' ORDER BY count DESC LIMIT 5;
- 点击
运行 。 结果会显示在查询结果部分中。
- 在 Google Cloud 控制台中,打开 BigQuery 页面。 转到 BigQuery
- 在探索器窗格中,点击您创建的
babynames
数据集。 - 展开 查看操作选项,然后点击删除。
- 在删除数据集对话框中,确认删除命令:输入
delete
一词,然后点击删除。 - 如需详细了解如何将数据加载到 BigQuery 中,请参阅数据加载简介。
- 如需详细了解如何查询数据,请参阅 BigQuery 分析概览。
- 要了解如何加载包含嵌套和重复数据的 JSON 文件,请参阅加载嵌套和重复的 JSON 数据。
- 如需详细了解如何以编程方式访问 BigQuery,请参阅 REST API 参考或 BigQuery 客户端库页面。
创建 BigQuery 数据集
使用 Google Cloud 控制台创建用于存储数据的数据集。您可以在美国多区域位置创建数据集。如需了解 BigQuery 区域和多区域位置,请参阅位置。
下载包含源数据的文件
您要下载的文件包含约 7 MB 的热门婴儿名字数据。由美国社会保障管理局提供。如需详细了解数据,请参阅社会保障管理局的热门名字背景信息。
将数据加载到表中
接下来,将数据加载到新表中。
name:string,assigned_sex_at_birth:string,count:integer
预览表数据
如需预览该表数据,请按照以下步骤操作:

查询表数据
接下来,查询该表。
在 Google Cloud 控制台中,您已成功查询公共数据集中的表,并将示例数据加载到了 BigQuery 中。
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。