Carga y consulta datos con la herramienta de bq

Obtén más información para crear un conjunto de datos, cargar datos de muestra y consultar tablas con la herramienta de línea de comandos de bq.

Para seguir la guía paso a paso en esta tarea directamente en la consola de Google Cloud, haz clic en Guía:

GUIARME

Antes de comenzar

Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

Ir al selector de proyectos

En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

Ir al selector de proyectos

Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

Si no habilitas la facturación para el proyecto de Google Cloud que uses en este instructivo, trabajarás con los datos en la zona de pruebas de BigQuery. La zona de pruebas de BigQuery te permite comprender la plataforma con un conjunto limitado de funciones de BigQuery sin cargo.

Asegúrate de que la API de BigQuery esté habilitada.

Habilitación de la API

Si creaste un proyecto nuevo, la API de BigQuery se habilita de forma automática.

En la consola de Google Cloud, activa Cloud Shell.

Activar Cloud Shell

En la parte inferior de la consola de Google Cloud, se inicia una sesión de Cloud Shell en la que se muestra una ventana de línea de comandos. Cloud Shell es un entorno de shell con Google Cloud CLI ya instalada y con valores ya establecidos para el proyecto actual. La sesión puede tardar unos segundos en inicializarse.

Descarga el archivo de datos públicos de origen

Descarga el archivo ZIP de nombres de bebés.
Extrae el archivo ZIP. Contiene un archivo llamado NationalReadMe.pdf que describe el esquema del conjunto de datos. Obtén más información sobre el conjunto de datos de nombres de bebés.
Abre el archivo yob2010.txt. Es un archivo de valores separados por comas (CSV) que contiene las siguientes tres columnas: nombre, sexo asignado al nacer y cantidad de bebés con ese nombre. El archivo no tiene una fila de encabezado.
Mueve el archivo a tu directorio de trabajo.
- Si trabajas en Cloud Shell, haz clic en Más > Subir, haz clic en Elegir archivos, elige el archivo yob2010.txt y, luego, haz clic enSubir.
- Si trabajas en una shell local, copia o mueve el archivo yob2010.txt al directorio en el que ejecutas la herramienta de bq.

Crea un conjunto de datos

Crea un conjunto de datos llamado babynames:
```
bq mk babynames
```
El resultado es similar a este:
```
Dataset 'myproject:babynames' successfully created.
```
El nombre de un conjunto de datos puede tener hasta 1,024 caracteres y estar compuesto por letras de la A a la Z (mayúsculas o minúsculas), números del 0 al 9 y guiones bajos. El nombre no puede comenzar con un número ni un guion bajo y no puede tener espacios.
Confirma que el conjunto de datos babynames ahora aparezca en tu proyecto:
```
bq ls
```
El resultado es similar a este:
```
  datasetId
-------------
  babynames
```

Carga datos en una tabla

En el conjunto de datos babynames, carga el archivo de origen yob2010.txt en una tabla nueva llamada names2010:
```
bq load babynames.names2010 yob2010.txt name:string,assigned_sex_at_birth:string,count:integer
```
El resultado es similar a este:
```
Upload complete.
Waiting on bqjob_r3c045d7cbe5ca6d2_0000018292f0815f_1 ... (1s) Current status: DONE
```
De manera predeterminada, cuando cargas datos, BigQuery espera que sean datos codificados en UTF-8. Si tienes datos en la codificación ISO-8859-1 (o Latin-1) y tienes problemas con ellos, indica a BigQuery que trate tus datos como Latin-1 con bq load -E=ISO-8859-1. Para obtener más información, consulta Codificación.
Confirma que la tabla names2010 ahora aparezca en el conjunto de datos babynames:
```
bq ls babynames
```
El resultado es similar al siguiente. Algunas columnas se omiten para simplificar el resultado.
```
  tableId     Type
----------- ---------
 names2010    TABLE
```

Confirma que el esquema de la tabla nueva de names2010 sea name: string, assigned_sex_at_birth: string y count: integer:

bq show babynames.names2010

El resultado es similar al siguiente. Algunas columnas se omiten para simplificar el resultado.

  Last modified        Schema                      Total Rows   Total Bytes
----------------- ------------------------------- ------------ ------------
14 Mar 17:16:45   |- name: string                    34089       654791
                  |- assigned_sex_at_birth: string
                  |- count: integer

Consultar datos de tablas

Determina los nombres de niñas más populares en los datos:

bq query --use_legacy_sql=false \
    'SELECT
      name,
      count
    FROM
      `babynames.names2010`
    WHERE
      assigned_sex_at_birth = "F"
    ORDER BY
      count DESC
    LIMIT 5;'

El resultado es similar a este:

+----------+-------+
|   name   | count |
+----------+-------+
| Isabella | 22925 |
| Sophia   | 20648 |
| Emma     | 17354 |
| Olivia   | 17030 |
| Ava      | 15436 |
+----------+-------+

Determina los nombres de niños menos populares en los datos:

bq query --use_legacy_sql=false \
    'SELECT
      name,
      count
    FROM
      `babynames.names2010`
    WHERE
      assigned_sex_at_birth = "M"
    ORDER BY
      count ASC
    LIMIT 5;'

El resultado es similar a este:

+----------+-------+
|   name   | count |
+----------+-------+
| Aamarion |     5 |
| Aarian   |     5 |
| Aaqib    |     5 |
| Aaidan   |     5 |
| Aadhavan |     5 |
+----------+-------+

El conteo mínimo es de 5 porque los datos de origen omiten los nombres que aparecen menos de 5 veces.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que se usaron en esta página, borra el proyecto de Cloud que tiene los recursos.

Borra el proyecto

Si usaste la zona de pruebas de BigQuery a fin de consultar el conjunto de datos públicos, la facturación no estará habilitada para tu proyecto.

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, haga lo siguiente:

Precaución: Borrar un proyecto tiene estas consecuencias:

Se borra todo en el proyecto. Si usaste un proyecto existente para las tareas de este documento, cuando lo borres, también se borrará cualquier otro trabajo que hayas realizado en el proyecto.
Se pierden los ID personalizados de proyectos. Cuando creaste este proyecto, es posible que hayas creado un ID del proyecto personalizado que desees utilizar en el futuro. Para conservar las URL que utilizan el ID del proyecto, como una URL appspot.com, borra los recursos seleccionados dentro del proyecto en lugar de borrar todo el proyecto.

Si planeas explorar varias infraestructuras, instructivos y guías de inicio rápido la reutilización de proyectos puede ayudarte a evitar exceder los límites de las cuotas del proyecto.

En la consola de Google Cloud, ve a la página Administrar recursos.
Ir a Administrar recursos
En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

Borra recursos

Si usaste un proyecto existente, borra los recursos que creaste:

Borra el conjunto de datos babynames
```
bq rm --recursive=true babynames
```
La marca --recursive borra todas las tablas del conjunto de datos, incluida la tabla names2010.

El resultado es similar a este:
```
rm: remove dataset 'myproject:babynames'? (y/N)
```
Para confirmar el comando de eliminación, ingresa y.

¿Qué sigue?

Obtén más información para usar la herramienta de bq.
Obtén más información sobre la zona de pruebas de BigQuery.
Obtén más información sobre cómo cargar datos en BigQuery.
Obtén más información sobre cómo consultar datos en BigQuery.
Recibe actualizaciones de BigQuery.
Obtén más información sobre los precios de BigQuery.
Obtén más información sobre las cuotas y los límites de BigQuery.