Consulta un conjunto de datos públicos con la herramienta de bq

Aprende a examinar y consultar un conjunto de datos públicos con la herramienta de línea de comandos de bq.


Para seguir la guía paso a paso en esta tarea directamente en la consola de Google Cloud, haz clic en Guía:

GUIARME


Antes de comenzar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  4. Make sure that billing is enabled for your Google Cloud project.

  5. Si no habilitas la facturación para el proyecto de Google Cloud que uses en este instructivo, deberás subir datos en la zona de pruebas de BigQuery y trabajar con ellos. La zona de pruebas de BigQuery te permite comprender la plataforma con un conjunto limitado de funciones de BigQuery sin cargo.

  6. Asegúrate de que la API de BigQuery esté habilitada.

    Habilitación de la API

    Si creaste un proyecto nuevo, la API de BigQuery se habilita de forma automática.

  7. In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

    At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

Examina un conjunto de datos públicos

BigQuery ofrece varias tablas de muestra en el conjunto de datos bigquery-public-data.samples que puedes consultar. En este instructivo, ejecutarás consultas en la tabla shakespeare, que contiene una entrada por cada palabra que aparece en cada obra de Shakespeare.

Examina la tabla shakespeare en el conjunto de datos samples:

bq show bigquery-public-data:samples.shakespeare

El resultado es similar al siguiente. Algunas columnas se omiten para simplificar el resultado.

  Last modified                  Schema                 Total Rows   Total Bytes
----------------- ------------------------------------ ------------ ------------
 14 Mar 17:16:45   |- word: string (required)           164656       6432064
                   |- word_count: integer (required)
                   |- corpus: string (required)
                   |- corpus_date: integer (required)

Consulta un conjunto de datos públicos

Usa el comando bq query para ejecutar consultas en SQL sobre los datos.

  1. Determina cuántas veces aparece la substring raisin en las obras de Shakespeare:

    bq query --use_legacy_sql=false \
        'SELECT
          word,
          SUM(word_count) AS count
        FROM
          `bigquery-public-data.samples.shakespeare`
        WHERE
          word LIKE "%raisin%"
        GROUP BY
          word;'
    

    El resultado es similar a este:

    +---------------+-------+
    |     word      | count |
    +---------------+-------+
    | praising      |     8 |
    | Praising      |     4 |
    | raising       |     5 |
    | dispraising   |     2 |
    | dispraisingly |     1 |
    | raisins       |     1 |
    +---------------+-------+
    
  2. Busca la substring huzzah en las obras de Shakespeare:

    bq query --use_legacy_sql=false \
        'SELECT
          word
        FROM
          `bigquery-public-data.samples.shakespeare`
        WHERE
          word = "huzzah";'
    

    Como la substring no aparece en las obras de Shakespeare, no se muestran resultados.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que se usaron en esta página, borra el proyecto de Cloud que tiene los recursos.

Borra el proyecto

Si usaste la zona de pruebas de BigQuery a fin de consultar el conjunto de datos públicos, la facturación no estará habilitada para tu proyecto.

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

¿Qué sigue?