使用 Google Cloud 控制台加载和查询数据

了解如何使用 Google Cloud 控制台创建数据集、将示例数据加载到 BigQuery 表中以及查询表。


如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示

操作演示


准备工作

探索 BigQuery 之前,您必须登录 Google Cloud 控制台并创建项目。如果您未在项目中启用结算功能,则您上传的所有数据都将位于 BigQuery 沙盒中。沙盒使您可以免费学习 BigQuery,同时使用一组有限的 BigQuery 功能。如需了解详情,请参阅启用 BigQuery 沙盒

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  4. 可选:如果您选择现有项目,请确保启用 BigQuery API。新项目会自动启用 BigQuery API。

创建 BigQuery 数据集

使用 Google Cloud 控制台创建用于存储数据的数据集。

  1. 在 Google Cloud 控制台中,打开 BigQuery 页面。
  2. 前往 BigQuery
  3. 探索器面板中,点击您的项目名称。
  4. 展开 查看操作 > 创建数据集
  5. 创建数据集页面上,执行以下操作:
    1. 数据集 ID 部分,输入 babynames
    2. 数据位置列表中,选择 us(美国的多个区域)。公共数据集存储在 us 多地区位置。为简单起见,请将您的数据集存储在同一位置。
    3. 保持其余默认设置不变,然后点击创建数据集

下载源数据文件

您要下载的文件包含约 7 MB 的热门婴儿名字数据。由美国社会保障管理局提供。

如需详细了解数据集,请参阅社会保障管理局的数据集信息页面

  1. 在新的浏览器标签页中打开以下网址,下载美国社会保障管理局的数据集:

    https://www.ssa.gov/OACT/babynames/names.zip
    
  2. 解压文件。

    如需详细了解数据集架构,请参阅 ZIP 文件的 NationalReadMe.pdf 文件。

  3. 如需查看数据,请打开 yob2014.txt 文件。此文件包含姓名、出生时指定的性别和使用该姓名的儿童人数的英文逗号分隔值。该文件没有标题行。

  4. 请记下 yob2014.txt 文件的位置,以便于日后查找。

将数据加载到表中

接下来,将数据加载到新表中。

  1. 探索器面板中,点击您的项目名称。
  2. babynames 数据集旁边,点击更多操作 ,然后选择打开
  3. 在详细信息面板中,点击 创建表

    除非另有说明,否则请使用所有设置的默认值。

  4. 创建表格页面上,执行以下操作:
    1. 来源部分,从基于以下数据源创建表列表中选择上传
    2. 选择文件字段中,点击浏览
    3. 找到并打开您的本地 yob2014.txt 文件,然后点击打开
    4. 文件格式列表中,选择 CSV
    5. 目标部分的表名称中,输入 names_2014
    6. 架构部分,点击以文本形式修改切换开关,并将以下架构定义粘贴到文本字段中:
    7. name:string,assigned_sex_at_birth:string,count:integer
    8. 点击创建表

      等待 BigQuery 创建表和加载数据。 BigQuery 完成数据加载后,展开个人记录项目历史记录面板以查看作业详细信息。

预览表数据

如需预览该表数据,请按照以下步骤操作:

  1. 探索器面板中,展开您的项目和 babynames 数据集,然后选择 names_2014 表。
  2. 在详细信息面板中,点击预览。BigQuery 会显示表的前几行。
  3. Google Cloud 控制台表预览。
并非所有表类型都有预览标签页。例如,外部表或视图不会显示预览标签页。

查询表数据

接下来,查询该表。此过程与前一个示例相同,不同的是,这一次您查询的是自己的表,而非公共数据集中的表。

  1. 点击 编写新查询。随即会打开一个新的编辑器标签页。
  2. 编辑器标签页中,粘贴以下查询。此查询检索 2014 年出生的美国最热门的 5 个男婴名字。
    
        SELECT
          name,
          count
        FROM
          `babynames.names_2014`
        WHERE
          assigned_sex_at_birth = 'M'
        ORDER BY
          count DESC
        LIMIT
          5;
        
  3. 点击运行。结果会显示在查询结果部分中。
    姓名查询结果。

您已成功查询公共数据集内的表,然后使用 Cloud 控制台将示例数据加载到 BigQuery 中。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

  1. 在 Google Cloud 控制台中,打开 BigQuery 页面。
  2. 转到 BigQuery
  3. 探索器面板中,点击您创建的 babynames 数据集。
  4. 展开 查看操作选项,然后点击删除
  5. 删除数据集对话框中,确认删除命令:输入 delete 一词,然后点击删除

后续步骤