Conjuntos de datos públicos de BigQuery

Un conjunto de datos público es cualquier conjunto de datos que se almacena en BigQuery y que está disponible para el público en general a través del Programa de conjunto de datos públicos de Google Cloud. Se trata de conjuntos de datos que BigQuery aloja de modo que puedas acceder a ellos y, también, integrarlos en tus aplicaciones. Google cubre los costos de almacenamiento de estos conjuntos de datos y proporciona acceso público a los datos a través de un proyecto. Solo se paga por las consultas que realizas en los datos. El primer 1 TB mensual es gratuito, sujeto a los detalles de los precios de consultas.

Los conjuntos de datos públicos están disponibles para que los analices mediante consultas de SQL heredado o de SQL estándar. Usa un nombre de tabla completamente calificado cuando se consulten conjuntos de datos públicos, por ejemplo bigquery-public-data.bbc_news.fulltext.

Puedes acceder a los conjuntos de datos públicos de BigQuery con Cloud Console, si usas la herramienta de línea de comandos de bq o realizas llamadas a la API de REST de BigQuery con una variedad de bibliotecas cliente, comoJava, .NET oPython.

Puedes encontrar más detalles sobre cada conjunto de datos individual si haces clic en el nombre del conjunto de datos en la sección Conjuntos de datos de Cloud Marketplace.

Ir a Conjuntos de datos en Cloud Marketplace

Antes de comenzar

Para comenzar con un conjunto de datos públicos de BigQuery, debes crear o seleccionar un proyecto. El primer terabyte de datos procesados por mes es gratuito para que puedas comenzar a consultar conjuntos de datos públicos sin habilitar la facturación. Si supones que superarás el nivel gratuito, también debes habilitar la facturación.

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyecto

  3. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  4. BigQuery se habilita de forma automática en proyectos nuevos. Para activar BigQuery en un proyecto preexistente, Habilita la API BigQuery.

    Habilita la API

Ubicaciones de conjuntos de datos públicos

En este momento, las tablas de muestra de BigQuery se almacenan en la ubicación de la multirregión US. Cuando consultes una tabla de muestra, ingresa la marca --location=US en la línea de comandos, elige US como la ubicación de procesamiento en Cloud Console o especifica la propiedad location en la sección jobReference del recurso de trabajo cuando uses la API. Debido a que las tablas de muestra se almacenan en EE.UU., no puedes escribir los resultados de la consulta de la tabla de muestra en una tabla en otra región y no puedes unir tablas de muestra con tablas en otra región.

Accede a conjuntos de datos públicos en Cloud Console

Puedes acceder a los conjuntos de datos públicos mediante Cloud Console. El proyecto bigquery-public-data se fija de manera automática en cada proyecto. Puedes encontrar el proyecto en la sección Recursos del panel de navegación.

Para abrir el proyecto bigquery-public-data de forma manual con Cloud Console, ingresa la siguiente URL en tu navegador:

https://console.cloud.google.com/bigquery?project=bigquery-public-data&page=project

Para saber cuándo se actualizó por última vez una tabla de datos, ve a la sección Detalles de la tabla, como se describe en Obtén información de la tabla, y consulta el Campo Última modificación.

Otros conjuntos de datos públicos

Existen muchos otros conjuntos de datos públicos disponibles que puedes consultar, algunos también alojados por Google, pero muchos otros alojados por terceros. Otros conjuntos de datos incluyen lo que se muestran a continuación:

Comparte un conjunto de datos con el público

Se puede compartir cualquiera de tus conjuntos de datos con el público si cambias los controles de acceso del conjunto de datos que permite el acceso de “Todos los usuarios autenticados”. Para obtener más información sobre cómo configurar los controles de acceso al conjunto de datos, consulta Controla el acceso a los conjuntos de datos.

Cuando compartes un conjunto de datos con el público, ocurre lo siguiente:

  • La cuenta de facturación adjunta al proyecto que contiene el conjunto de datos compartidos a nivel público aplica cargos de almacenamiento.
  • La cuenta de facturación adjunta al proyecto en el que se ejecutan los trabajos de consulta aplica cargos de consulta.

Para obtener más información, consulta Descripción general de los precios de BigQuery.

Tablas de muestra

Además de los conjuntos de datos públicos, BigQuery proporciona una cantidad limitada de tablas de muestra que puedes consultar. Estas tablas son parte del conjunto de datos bigquery-public-data:samples.

Los requisitos para consultar las tablas de muestra de BigQuery son los mismos que los requisitos a fin de consultar los conjuntos de datos públicos.

El conjunto de datos bigquery-public-data:samples incluye las tablas siguientes:

Nombre Descripción
gsod Contiene datos de información meteorológica recopilada por la NOAA, entre estos, las cantidades de precipitaciones y la velocidad del viento desde finales de 1929 hasta principios de 2010.
github_nested Contiene un cronograma de acciones, como solicitudes de extracción y comentarios en repositorios de GitHub con un esquema anidado. Creado en septiembre de 2012.
github_timeline Contiene un cronograma de acciones, como solicitudes de extracción y comentarios en repositorios de GitHub con un esquema plano. Se creó en mayo de 2012.
natality Describe todos los nacimientos en los Estados Unidos registrados en los 50 estados, el Distrito de Columbia y la ciudad de Nueva York desde 1969 hasta 2008.
shakespeare Contiene un índice de palabras de las obras de Shakespeare, que indica la cantidad de veces que aparece cada palabra en cada corpus.
trigrams Contiene trigramas en inglés de una muestra de trabajos publicados entre 1520 y 2008.
wikipedia Contiene el historial de revisiones completo de todos los artículos de Wikipedia hasta abril de 2010.

Comunícate con nosotros

Si tienes alguna pregunta sobre el Programa del conjunto de datos públicos de BigQuery, comunícate con nosotros al bq-public-data@google.com.

Próximos pasos

Obtén información para consultar una tabla en un conjunto de datos públicos en la Guía de inicio rápido con Cloud Console.