快速入门:使用 bq 命令行工具

本快速入门介绍如何使用 bq 命令行工具运行查询以及将数据加载到 BigQuery 中。

准备工作

  1. 在 Google Cloud Console 的项目选择器页面上,选择或创建一个 Google Cloud 项目。

    转到“项目选择器”

  2. 如果您使用的是现有项目,请启用 BigQuery API。新项目中会自动启用 BigQuery。

    启用 API

  3. 可选:为项目启用结算功能。如果您不想启用结算功能或提供信用卡,本文档中的步骤仍然有效。BigQuery 提供执行这些步骤的沙盒
  4. 在 Cloud Console 中,激活 Cloud Shell。

    激活 Cloud Shell

    在本快速入门中,您将通过 Cloud Console 在 Cloud Shell 中运行所有 bq 工具命令。

查看表

BigQuery 提供了多个示例表,您可以对这些示例表执行查询操作。在本快速入门中,您将针对 shakespeare 表运行一些查询;对于莎士比亚每部戏剧中的每一个词语,该表都包含一个对应的条目。

  • 检查 samples 数据集中的 shakespeare 表:

     bq show bigquery-public-data:samples.shakespeare

    此示例命令会检查特定表的架构。如果项目和数据集 ID 是 bq 工具的默认值,您可以在 bq show 命令中省略它们,而只需指定表 ID:

     bq show shakespeare

    输出内容类似如下:

    Table bigquery-public-data:samples.shakespeare
    
     Last modified                  Schema                 Total Rows   Total Bytes   Expiration
    ----------------- ------------------------------------ ------------ ------------- ------------
    26 Aug 14:43:49   |- word: string (required)           164656       6432064
                      |- word_count: integer (required)
                      |- corpus: string (required)
                      |- corpus_date: integer (required)
    

运行帮助命令

  1. 查看有关 bq 工具的详细信息:

    bq help
  2. 查看有关特定命令的信息:

    bq help query

    在此示例中,调用 bq help 会检索有关 bq query 命令的信息。

运行查询

  1. 如需查看子字符串 raisin 在莎士比亚作品集中出现的次数,请使用 bq query 命令运行查询:

    bq query --use_legacy_sql=false \
    'SELECT
     word,
     SUM(word_count) AS count
    FROM
     `bigquery-public-data`.samples.shakespeare
    WHERE
     word LIKE "%raisin%"
    GROUP BY
     word'

    输出类似于以下内容:

    Waiting on job_dcda37c0bbed4c669b04dfd567859b90 ... (0s) Current status:
    DONE
    +---------------+-------+
    |     word      | count |
    +---------------+-------+
    | Praising      |   4   |
    | raising       |   5   |
    | raisins       |   1   |
    | praising      |   8   |
    | dispraising   |   2   |
    | dispraisingly |   1   |
    +---------------+-------+
    

  2. 如需查看子字符串 huzzah 在莎士比亚作品集中出现的次数,请运行以下查询:

    bq query --use_legacy_sql=false \
    'SELECT
     word
    FROM
     `bigquery-public-data`.samples.shakespeare
    WHERE
     word = "huzzah"'
    
    由于该子字符串未出现在莎士比亚作品集中,因此不会返回任何结果。

    输出内容类似如下:

    Waiting on job_e19 ... (4s) Current status: DONE
    

创建新表

在接下来的部分中,您将创建一个新表并将其放入新数据集中。

下载示例数据

示例数据由美国社会保障管理局提供,其中包含了约 7 MB 的热门婴儿名字数据。

  1. 下载并解压缩婴儿名字 ZIP 文件

    该 ZIP 文件中包含一个描述数据集架构的 NationalReadMe.pdf 文件。详细了解该数据集

  2. 打开 yob2010.txt 文件,查看其具体内容。该文件包含以英文逗号分隔的以下三列的值:名字、性别(MF)和取该名字的儿童人数。该文件没有标题行。

  3. yob2010.txt 文件复制或移动到运行 bq 命令行工具的目录中。如果您在 Cloud Shell 中运行 bq 命令行工具,请上传 yob2010.txt 文件。如需了解详情,请参阅使用 Cloud Shell 管理文件

创建新数据集

  1. 检查您的默认项目是否拥有现有数据集:

    bq ls
        

    输出内容类似如下:

      datasetId
     -------------
      olddataset
  2. 列出特定项目中的数据集,方法是添加项目 ID,后跟一个英文冒号 (:):
    bq ls publicdata:

    此示例列出了 publicdata 项目中的数据集。

    输出内容类似如下:

      datasetId
     -----------
      samples
  3. 在您为本快速入门选择的项目中,创建名为 babynames 的新数据集:
    bq mk babynames

    数据集名称不得超过 1024 个字符,可包含 A-Z、a-z、0-9 和下划线。该名称不能以数字或下划线开头,也不能包含空格。

    输出内容类似如下:

    Dataset 'myprojectid:babynames' successfully created.
  4. 确认该数据集现已位于默认项目中:
    bq ls

    输出内容类似如下:

      datasetId
     -------------
      olddataset
      babynames

上传表

  1. 在您创建的 babynames 数据集中,将源文件 yob2010.txt 加载到名为 names2010 的新表中:

    bq load babynames.names2010 yob2010.txt name:string,gender:string,count:integer

    bq load 命令只需一步即可创建表并加载数据。

    该命令包含以下参数:

    • datasetID:babynames
    • tableID:names2010
    • source:yob2010.txt(如有必要,请提供完整路径)
    • schema:name:string,gender:string,count:integer

    输出内容类似如下:

    Upload complete.
    Waiting on job_4f0c0878f6184119abfdae05f5194e65 ... (35s)
    Current status: DONE
  2. 确认该表现已显示在相应数据集内:

    bq ls babynames

    输出内容类似如下:

       tableId    Type
     ----------- -------
      names2010   TABLE
    
  3. 查看架构:

    bq show babynames.names2010

    输出类似于以下内容

    Table myprojectid:babynames.names2010
    
       Last modified         Schema         Total Rows   Total Bytes   Expiration
     ----------------- ------------------- ------------ ------------- ------------
      13 Mar 15:31:00   |- name: string     34041        653855
                        |- gender: string
                        |- count: integer
    

默认情况下,当您加载数据时,BigQuery 会要求 UTF-8 编码的数据。 如果您的数据采用 ISO-8859-1(或 Latin-1)编码,并且您遇到问题,请使用 -E 标志指示 BigQuery 将数据视为 Latin-1。如需了解详情,请参阅编码

运行查询

  1. 返回最热门的女孩名字:

    bq query "SELECT name,count FROM babynames.names2010 WHERE gender = 'F' ORDER BY count DESC LIMIT 5"

    输出内容类似如下:

    Waiting on job_58c0f5ca52764ef1902eba611b71c651 ... (0s) Current status: DONE
    +----------+-------+
    |   name   | COUNT |
    +----------+-------+
    | Isabella | 22731 |
    | Sophia   | 20477 |
    | Emma     | 17179 |
    | Olivia   | 16860 |
    | Ava      | 15300 |
    +----------+-------+
    
  2. 查看最少见的男孩名字:
    bq query "SELECT name,count FROM babynames.names2010 WHERE gender = 'M' ORDER BY count ASC LIMIT 5"

    最小计数为 5,因为源数据省略了出现次数少于 5 次的名字。

    输出内容类似如下:

    Waiting on job_556ba2e5aad340a7b2818c3e3280b7a3 ... (1s) Current status: DONE
    +----------+-------+
    |   name   | COUNT |
    +----------+-------+
    | Aarian   |     5 |
    | Aaidan   |     5 |
    | Aamarion |     5 |
    | Aadhavan |     5 |
    | Aaqib    |     5 |
    +----------+-------+
    

清理

为避免系统因本页中使用的资源向您的 Google Cloud 帐号收取费用,请按照以下步骤操作。

  1. 移除 babynames 数据集:

    bq rm --recursive=true babynames

    --recursive 标志会删除数据集中的所有表,包括 names2010 表。

  2. 如需确认删除命令,请输入 y

请注意,如果您在新项目中使用此快速入门,则可以删除项目

后续步骤