Conjuntos de datos públicos de BigQuery
Un conjunto de datos público es cualquier conjunto de datos que se almacena en BigQuery y que está disponible para el público en general a través del Programa de conjunto de datos públicos de Google Cloud. Se trata de conjuntos de datos que BigQuery aloja de modo que puedas acceder a ellos y, también, integrarlos en tus aplicaciones. Google cubre los costos de almacenamiento de estos conjuntos de datos y proporciona acceso público a los datos a través de un proyecto. Solo se paga por las consultas que realizas en los datos. El primer 1 TB mensual es gratuito, sujeto a los detalles de los precios de consultas.
Los conjuntos de datos públicos están disponibles para que los analices mediante
consultas de SQL heredado o
de GoogleSQL. Usa un nombre de tabla completamente calificado cuando se consulten conjuntos de datos públicos, por
ejemplo bigquery-public-data.bbc_news.fulltext
. Si tu organización restringe el acceso a los datos, por ejemplo, con perímetros de seguridad, es posible que debas comunicarte con tu administrador para obtener permiso a fin de acceder a los conjuntos de datos públicos.
Puedes acceder a los conjuntos de datos públicos de BigQuery en la consola de Google Cloud, con la herramienta de línea de comandos de bq o haciendo llamadas a la API de REST de BigQuery con varias bibliotecas cliente como Java, .NET o Python. También puedes ver y consultar los conjuntos de datos públicos a través de Analytics Hub, una plataforma de intercambio de datos que te ayuda a descubrir bibliotecas de datos y acceder a ellas.
De forma predeterminada, no se puede acceder a los conjuntos de datos públicos desde un perímetro de Controles del servicio de VPC. No hay un Acuerdo de Nivel de Servicio (ANS) para el Programa de conjuntos de datos públicos
Puedes encontrar más detalles sobre cada conjunto de datos individual si haces clic en el nombre del conjunto de datos en la sección Conjuntos de datos de Cloud Marketplace.
Ir a Conjuntos de datos en Cloud Marketplace
Antes de comenzar
Para comenzar con un conjunto de datos públicos de BigQuery, debes crear o seleccionar un proyecto. El primer terabyte de datos procesados por mes es gratuito para que puedas comenzar a consultar conjuntos de datos públicos sin habilitar la facturación. Si supones que superarás el nivel gratuito, también debes habilitar la facturación.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
- BigQuery se habilita automáticamente en proyectos nuevos.
Para activar BigQuery en un proyecto preexistente,
Enable the BigQuery API.
Ubicaciones de conjuntos de datos públicos
Cada conjunto de datos públicos se almacena en una ubicación específica como US
o EU
. En este momento, las tablas de muestra de BigQuery se almacenan en la ubicación de la multirregión US
.
Cuando consultes una tabla de muestra, ingresa la marca --location=US
en la línea de comandos, elige US
como la ubicación de procesamiento en la consola de Google Cloud o especifica la propiedad location
en la sección jobReference
del recurso de trabajo cuando uses la API. Debido a que las tablas de muestra se almacenan en EE.UU., no puedes escribir los resultados de la consulta de la tabla de muestra en una tabla en otra región y no puedes unir tablas de muestra con tablas en otra región.
Accede a conjuntos de datos públicos en la consola de Google Cloud
Puedes acceder a los conjuntos de datos públicos en la consola de Google Cloud a través de los siguientes métodos:
En el panel Explorador, visualiza el proyecto
bigquery-public-data
. Para obtener más información, consulta Abrir un conjunto de datos públicos.Usa Analytics Hub para ver y suscribirte a los conjuntos de datos públicos.
Para saber cuándo se actualizó por última vez una tabla de datos, ve a la sección Detalles de la tabla, como se describe en Obtén información de la tabla, y consulta el Campo Última modificación. Para obtener más información sobre cómo seleccionar y quitar proyectos, consulta Trabaja con proyectos.
Otros conjuntos de datos públicos
Existen muchos otros conjuntos de datos públicos disponibles que puedes consultar, algunos también alojados por Google, pero muchos otros alojados por terceros. Otros conjuntos de datos incluyen lo que se muestran a continuación:
- Conjuntos de datos públicos de Cloud Life Sciences
- Conjunto de datos de radiografías de tórax de los NIH
- El conjunto de datos del Archivo de imagen de cáncer (Cancer Imaging Archive, TCIA)
- Conjunto de datos de notas de la versión para la mayoría de los productos de Google Cloud disponibles para el público general
Comparte un conjunto de datos con el público
Se puede compartir cualquiera de tus conjuntos de datos con el público si cambias los controles de acceso del conjunto de datos que permite el acceso de “Todos los usuarios autenticados”. Para obtener más información sobre cómo configurar los controles de acceso al conjunto de datos, consulta Controla el acceso a los conjuntos de datos.
Cuando compartes un conjunto de datos con el público, ocurre lo siguiente:
- La cuenta de facturación adjunta al proyecto que contiene el conjunto de datos compartidos a nivel público aplica cargos de almacenamiento.
- La cuenta de facturación adjunta al proyecto en el que se ejecutan los trabajos de consulta aplica cargos de consulta.
Para obtener más información, consulta Descripción general de los precios de BigQuery.
Tablas de muestra
Además de los conjuntos de datos públicos, BigQuery proporciona una cantidad limitada de tablas de muestra que puedes consultar. Estas tablas son parte del
conjunto de datos
bigquery-public-data:samples
.
Los requisitos para consultar las tablas de muestra de BigQuery son los mismos que los requisitos a fin de consultar los conjuntos de datos públicos.
El conjunto de datos bigquery-public-data:samples
incluye las tablas siguientes:
Nombre | Descripción |
---|---|
gsod |
Contiene datos de información meteorológica recopilada por la NOAA, entre estos, las cantidades de precipitaciones y la velocidad del viento desde finales de 1929 hasta principios de 2010. |
github_nested |
Contiene un cronograma de acciones, como solicitudes de extracción y comentarios en repositorios de GitHub con un esquema anidado. Creado en septiembre de 2012. |
github_timeline |
Contiene un cronograma de acciones, como solicitudes de extracción y comentarios en repositorios de GitHub con un esquema plano. Se creó en mayo de 2012. |
natality |
Describe todos los nacimientos en los Estados Unidos registrados en los 50 estados, el Distrito de Columbia y la ciudad de Nueva York desde 1969 hasta 2008. |
shakespeare |
Contiene un índice de palabras de las obras de Shakespeare, que indica la cantidad de veces que aparece cada palabra en cada corpus. |
trigrams |
Contiene trigramas en inglés de una muestra de trabajos publicados entre 1520 y 2008. |
wikipedia |
Contiene el historial de revisiones completo de todos los artículos de Wikipedia hasta abril de 2010. |
Comunícate con nosotros
Si tienes alguna pregunta sobre el Programa del conjunto de datos públicos de BigQuery, comunícate con nosotros al bq-public-data@google.com
.
¿Qué sigue?
Obtén información para consultar una tabla en un conjunto de datos públicos en la Guía de inicio rápido con la consola de Google Cloud.