Conjuntos de datos públicos de BigQuery

El catálogo del Programa de conjuntos de datos públicos de Cloud se encuentra en GCP Marketplace. Puedes encontrar más detalles sobre cada conjunto de datos individual si consultas las páginas de Marketplace en la sección Conjuntos de datos.

Ir a conjuntos de datos en GCP Marketplace

Un conjunto de datos público es cualquier conjunto de datos que se almacena en BigQuery y que está disponible para el público en general a través del Programa de conjunto de datos públicos de Google Cloud. Se trata de conjuntos de datos que BigQuery aloja de modo que puedas acceder a ellos y, también, integrarlos en tus aplicaciones. Google cubre los costos de almacenamiento de estos conjuntos de datos y proporciona acceso público a los datos a través de un proyecto. Solo se paga por las consultas que realizas en los datos. El primer 1 TB mensual es gratuito, sujeto a los detalles de los precios de consultas.

Antes de comenzar

Los conjuntos de datos públicos están disponibles para que los analices mediante consultas de SQL heredado o SQL estándar. Se puede acceder a los conjuntos de datos públicos de BigQuery mediante la IU web de BigQuery en Cloud Console, la IU web clásica de BigQuery, la herramienta de línea de comandos o mediante llamadas a la API de REST de BigQuery con una variedad de bibliotecas cliente, como Java, .NET o Python.

Para comenzar con un conjunto de datos públicos de BigQuery, debes crear o seleccionar un proyecto. El primer terabyte de datos procesados por mes es gratuito para que puedas comenzar a consultar conjuntos de datos públicos sin habilitar la facturación. Si supones que superarás el nivel gratuito, también debes habilitar la facturación.

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. En GCP Console, en la página de selección de proyecto, selecciona o crea un proyecto de GCP.

    Ir a la página de selección de proyecto

  3. Asegúrate de tener habilitada la facturación para tu proyecto de Google Cloud Platform. Obtén información sobre cómo confirmar que tienes habilitada la facturación para tu proyecto.

  4. BigQuery se habilita de forma automática en proyectos nuevos. Para activar BigQuery en un proyecto preexistente, dirígete a Habilita lasBigQueryAPI.

    Habilita lasAPI

Ubicaciones de conjuntos de datos públicos

En este momento, las tablas de muestra de BigQuery se almacenan en la ubicación de la multirregión US. Cuando consultes una tabla de muestra, proporciona la marca --location=US en la línea de comandos, elige US como la ubicación de procesamiento en Cloud Console o la IU web clásica de BigQuery o especifica la propiedad location en la sección jobReference del recurso de trabajo cuando uses la API. Debido a que las tablas de muestra se almacenan en EE.UU., no puedes escribir los resultados de la consulta de la tabla de muestra en una tabla en otra región y no puedes unir tablas de muestra con tablas en otra región.

Accede a conjuntos de datos públicos en la IU web de BigQuery

Existen dos interfaces de usuario que se pueden usar para acceder a los conjuntos de datos públicos:

El proyecto bigquery-public-data se fija de manera automática a cada proyecto en ambas IU. Puede buscar el proyecto en el panel de navegación.

Para abrir el proyecto bigquery-public-data de forma manual, puedes seguir estos pasos:

  • Ingresa la URL siguiente en tu navegador para abrir los conjuntos de datos públicos en la IU web clásica de BigQuery: https://bigquery.cloud.google.com/.
  • Ingresa la URL siguiente para abrir los conjuntos de datos públicos en la IU web de BigQuery en Cloud Console: https://console.cloud.google.com/bigquery?project=bigquery-public-data&page=project.

Para cambiar de Cloud Console a la IU web clásica, consulta Cambia a la IU web clásica.

Otros conjuntos de datos públicos

Existen muchos otros conjuntos de datos públicos disponibles que puedes consultar, algunos también alojados por Google, pero muchos otros alojados por terceros. Otros conjuntos de datos incluyen lo que se muestran a continuación:

Comparte un conjunto de datos con el público

Se puede compartir cualquiera de tus conjuntos de datos con el público si cambias los controles de acceso del conjunto de datos que permite el acceso de “Todos los usuarios autenticados”. Para obtener más información sobre cómo configurar los controles de acceso al conjunto de datos, consulta Controla el acceso a los conjuntos de datos.

Cuando compartes un conjunto de datos con el público, ocurre lo siguiente:

  • La cuenta de facturación adjunta al proyecto que contiene el conjunto de datos compartidos a nivel público aplica cargos de almacenamiento.
  • La cuenta de facturación adjunta al proyecto en el que se ejecutan los trabajos de consulta aplica cargos de consulta.

Para obtener más información, consulta Cómo se facturan los cargos.

Tablas de muestra

Además de los conjuntos de datos públicos, BigQuery proporciona una cantidad limitada de tablas de muestra que puedes consultar. Estas tablas son parte del conjunto de datos bigquery-public-data:samples.

Los requisitos para consultar las tablas de muestra de BigQuery son los mismos que los requisitos a fin de consultar los conjuntos de datos públicos.

El conjunto de datos bigquery-public-data:samples incluye las tablas siguientes:

Nombre Descripción
gsod Contiene datos de información meteorológica recopilada por la NOAA, entre estos, las cantidades de precipitaciones y la velocidad del viento desde finales de 1929 hasta principios de 2010.
github_nested Contiene un cronograma de acciones, como solicitudes de extracción y comentarios en repositorios de GitHub con un esquema anidado. Creado en septiembre de 2012.
github_timeline Contiene un cronograma de acciones, como solicitudes de extracción y comentarios en repositorios de GitHub con un esquema plano. Se creó en mayo de 2012.
natality Describe todos los nacimientos en los Estados Unidos registrados en los 50 estados, el Distrito de Columbia y la ciudad de Nueva York desde 1969 hasta 2008.
shakespeare Contiene un índice de palabras de las obras de Shakespeare, que indica la cantidad de veces que aparece cada palabra en cada corpus.
trigrams Contiene trigramas en inglés de una muestra de trabajos publicados entre 1520 y 2008.
wikipedia Contiene el historial de revisiones completo de todos los artículos de Wikipedia hasta abril de 2010.

Comunícate con nosotros

Si tienes alguna pregunta sobre el Programa del conjunto de datos públicos de BigQuery, comunícate con nosotros al bq-public-data@google.com.