Consulta un conjunto de datos públicos con la herramienta de bq

Aprende a examinar y consultar un conjunto de datos públicos con la herramienta de línea de comandos de bq.


Para seguir la guía paso a paso en esta tarea directamente en la consola de Google Cloud, haz clic en Guía:

GUIARME


Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  4. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  5. Si no habilitas la facturación para el proyecto de Google Cloud que uses en este instructivo, deberás subir datos en la zona de pruebas de BigQuery y trabajar con ellos. La zona de pruebas de BigQuery te permite comprender la plataforma con un conjunto limitado de funciones de BigQuery sin cargo.

  6. Asegúrate de que la API de BigQuery esté habilitada.

    Habilitación de la API

    Si creaste un proyecto nuevo, la API de BigQuery se habilita de forma automática.

  7. En la consola de Google Cloud, activa Cloud Shell.

    Activar Cloud Shell

    En la parte inferior de la consola de Google Cloud, se inicia una sesión de Cloud Shell en la que se muestra una ventana de línea de comandos. Cloud Shell es un entorno de shell con Google Cloud CLI ya instalada y con valores ya establecidos para el proyecto actual. La sesión puede tardar unos segundos en inicializarse.

Examina un conjunto de datos públicos

BigQuery ofrece varias tablas de muestra en el conjunto de datos bigquery-public-data.samples que puedes consultar. En este instructivo, ejecutarás consultas en la tabla shakespeare, que contiene una entrada por cada palabra que aparece en cada obra de Shakespeare.

Examina la tabla shakespeare en el conjunto de datos samples:

bq show bigquery-public-data:samples.shakespeare

El resultado es similar al siguiente. Algunas columnas se omiten para simplificar el resultado.

  Last modified                  Schema                 Total Rows   Total Bytes
----------------- ------------------------------------ ------------ ------------
 14 Mar 17:16:45   |- word: string (required)           164656       6432064
                   |- word_count: integer (required)
                   |- corpus: string (required)
                   |- corpus_date: integer (required)

Consulta un conjunto de datos públicos

Usa el comando bq query para ejecutar consultas en SQL sobre los datos.

  1. Determina cuántas veces aparece la substring raisin en las obras de Shakespeare:

    bq query --use_legacy_sql=false \
        'SELECT
          word,
          SUM(word_count) AS count
        FROM
          `bigquery-public-data.samples.shakespeare`
        WHERE
          word LIKE "%raisin%"
        GROUP BY
          word;'
    

    El resultado es similar a este:

    +---------------+-------+
    |     word      | count |
    +---------------+-------+
    | praising      |     8 |
    | Praising      |     4 |
    | raising       |     5 |
    | dispraising   |     2 |
    | dispraisingly |     1 |
    | raisins       |     1 |
    +---------------+-------+
    
  2. Busca la substring huzzah en las obras de Shakespeare:

    bq query --use_legacy_sql=false \
        'SELECT
          word
        FROM
          `bigquery-public-data.samples.shakespeare`
        WHERE
          word = "huzzah";'
    

    Como la substring no aparece en las obras de Shakespeare, no se muestran resultados.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que se usaron en esta página, borra el proyecto de Cloud que tiene los recursos.

Borra el proyecto

Si usaste la zona de pruebas de BigQuery a fin de consultar el conjunto de datos públicos, la facturación no estará habilitada para tu proyecto.

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?