Conjuntos de datos públicos

Consulta y analiza diversos conjuntos de datos públicos alojados en Google Cloud Platform

Pruébalo gratis

Consulta y analiza datos

Los conjuntos de datos públicos de Google Cloud Platform facilitan que los usuarios puedan acceder a datos en la nube y analizarlos. Estos conjuntos de datos se alojan y están disponibles de forma gratuita a través de diversos almacenes de datos y software de análisis, desde la opción de código abierto Apache Spark hasta vanguardistas tecnologías de Google como Google BigQuery y Google Cloud Dataflow. Genómica estructurada, datos enciclopédicos, datos sobre el clima no estructurados­… Los conjuntos de datos públicos hacen las delicias de los recién llegados al mundo del Big Data y del análisis de datos, además de ser un potente repositorio para los investigadores experimentados. También puedes integrarlos en tu aplicación y así añadir información valiosa para tus usuarios. Sea cual sea el uso que les des, estos conjuntos de datos están a tu disposición de forma gratuita en GCP.

Consulta y analiza datos

Conjuntos de datos públicos de Google BigQuery

BigQuery aloja diferentes conjuntos de datos públicos que pueden analizarse con el conocido lenguaje SQL. Los usuarios pueden consultar estos datos directamente en la IU web de BigQuery o mediante programación con la API REST de BigQuery. Estos conjuntos de datos se alojan de forma gratuita y cualquiera puede acceder a ellos. Puedes consultar hasta 1 TB de estos datos al mes de forma gratuita. Solo pagas cuando superas este límite gratuito, según lo establecido en los precios detallados de las consultas.

Vídeo: How to run a terabyte of Google BigQuery queries each month without a credit card (Ejecutar un terabyte de consultas en Google BigQuery al mes sin tarjeta de crédito)
Envía consultas a los conjuntos de datos públicos de Google BigQuery

Conjuntos de datos públicos de Google Genomics

Google colabora con la comunidad genómica para alojar como recurso público determinados datos genómicos, como el Proyecto 1000 Genomas. Puedes acceder a estos conjuntos de datos a través de la API de Google Genomics, la interfaz web de BigQuery y ejemplos de código abierto.

Conjuntos de datos públicos de Google Genomics

Conjuntos de datos de imágenes geográficas

En Google Cloud Storage encontrarás los conjuntos de datos de imágenes por satélite de Landsat y Sentinel, así como los del radar Doppler NEXRAD. Usa GCP para realizar análisis y desarrollar nuevos productos sin tener que preocuparte por el coste de almacenamiento de los datos, o el tiempo y el dinero que supone descargarse conjuntos de datos muy grandes.

Además de estos conjuntos de datos que se alojan en Google Cloud Storage, existe una amplia variedad de conjuntos de datos estándar de tramas de las ciencias de la Tierra en Earth Engine. El práctico editor de código basado en web de Earth Engine está diseñado para facilitar y agilizar el desarrollo de flujos de trabajo geoespaciales complejos.

Conjuntos de datos de imágenes geográficas

Conjuntos de datos de BigQuery

Viajes de Bay Area Bike Share
Este conjunto incluye todos los trayectos realizados con el servicio Bay Area Bike Share desde agosto del 2013 hasta la actualidad. Estos datos se actualizan a diario. Más información
Corpus bibliográfico GDELT
Este conjunto de datos contiene 3,5 millones de publicaciones digitalizadas que abarcan dos siglos. Incluye todas las colecciones de dominio público en inglés de Internet Archive (1,3 millones de volúmenes) y de HathiTrust (2,2 millones de volúmenes). Más información
Datos de GitHub
Este conjunto público incluye los datos de actividad de GitHub procedentes de más de 2,8 millones de repositorios de código abierto de GitHub, más de 145 millones de confirmaciones únicas, más de 2000 millones de rutas de archivo diferentes y el contenido de la última revisión de 163 millones de archivos. Más información
Datos del formulario 990 del IRS
Este conjunto contiene los datos financieros de las organizaciones exentas de pagar impuestos o sin ánimo de lucro de EE. UU., que la agencia tributaria estadounidense (IRS) recoge mediante el modelo 990. Más información
Datos de Stack Overflow
Este conjunto de datos público consta de un archivo con el contenido de Stack Overflow, que incluye publicaciones, votos, etiquetas e insignias, entre otros. Más información
Datos sobre árboles de la ciudad de San Francisco
Este conjunto incluye la lista de los árboles que cuida el departamento de obras públicas de esta ciudad estadounidense y contiene datos como la fecha de plantación, la especie o la ubicación. Más información
Datos de informes policiales de San Francisco
Este conjunto contiene los expedientes recogidos en el sistema de creación de informes de incidentes de la policía de esta ciudad estadounidense desde enero del 2003 hasta la actualidad. Más información
Datos de llamadas al cuerpo de bomberos de San Francisco
Este conjunto contiene las intervenciones derivadas de llamadas realizadas al cuerpo de bomberos de esta ciudad estadounidense desde abril del 2000 hasta la actualidad. Estos datos se actualizan a diario e incluyen el número de llamada y de incidente, así como la dirección, el identificador de la dotación, el tipo de llamada y la actuación. Más información
Datos de solicitudes al servicio de atención ciudadana de San Francisco
Este conjunto incluye todas las solicitudes realizadas a este servicio (311) de la ciudad estadounidense desde julio del 2008 hasta la actualidad. Estos datos se actualizan a diario. Más información
Nombres de EE. UU.
Este conjunto de datos pertenece a la seguridad social estadounidense e incluye todos los nombres inscritos en las solicitudes de tarjeta de seguro social de los nacidos en este país desde 1879. Más información
Sistema de control de enfermedades de EE. UU.
Este conjunto de datos, publicado por el ministerio estadounidense de sanidad y bienestar social, incluye todos los informes semanales de control de enfermedades de notificación obligatoria a escala nacional correspondientes a todas las ciudades y todos los estados publicados entre 1888 y el 2013. Más información
Oficina de estadísticas laborales de EE. UU.
Este conjunto de datos incluye las estadísticas económicas sobre inflación, precios, desempleo, prestaciones y subsidios que suministra esta agencia. Más información
Hacker News
Este conjunto de datos contiene todos los artículos y comentarios de Hacker News desde su lanzamiento en el 2006. Más información
Datos de la liga profesional de béisbol estadounidense
En estos datos públicos se incluyen la información de cada lanzamiento del campeonato de Grandes Ligas de Béisbol (MLB) del 2016. Más información
Datos del programa sanitario Medicare
Este conjunto de datos público es obra de los centros de servicios de Medicare y Medicaid, que ofrecen cobertura de seguridad social en EE. UU. En los datos se resumen el uso y el coste de las intervenciones, las consultas y los medicamentos recetados a los beneficiarios de Medicare. Más información
Datos meteorológicos del informe GSOD de la NOAA
Este conjunto de datos público es obra del organismo estadounidense de administración nacional oceánica y atmosférica (NOAA) e incluye datos mundiales obtenidos en el centro de climatología del Ejército del Aire de EE. UU. (USAF). Se compone de los resúmenes diarios de la superficie terrestre entre 1929 y el 2016, recogidos en más de 9000 estaciones. Más información
Red GHCN de la NOAA
Este conjunto de datos público es obra del organismo estadounidense de administración nacional oceánica y atmosférica (NOAA) e incluye informes meteorológicos recogidos en estaciones terrestres de todo el mundo que han superado una serie de revisiones de control de calidad. Se basa en más de 20 fuentes y cuenta con datos anuales desde 1763. Más información
Trayectos de la TLC de Nueva York
Este conjunto contiene datos recogidos por la comisión de taxis y limusinas (TLC) de Nueva York e incluye registros de todos los trayectos realizados en taxis amarillos y verdes en esta ciudad estadounidense desde el 2009 hasta la actualidad. Más información
Solicitudes al servicio de atención ciudadana de Nueva York
Este conjunto de datos público incluye todas las solicitudes realizadas a este servicio de la ciudad estadounidense desde el 2010 hasta la actualidad. El número 311 sirve para acceder a los servicios municipales que no son de emergencias. Estos datos se actualizan a diario. Más información
Trayectos del servicio Citi Bike de Nueva York
Este conjunto contiene los datos recogidos por el servicio de bicicletas compartidas Citi Bike de esta ciudad estadounidense. Incluye registros sobre trayectos de 10.000 bicicletas y 600 estaciones repartidas por los barrios de Manhattan, Brooklyn y Queens y por Jersey City desde que se inició el programa en septiembre del 2013. Más información
Censo de árboles de Nueva York
Este conjunto contiene los datos recogidos en los censos de árboles realizados en los años 1995, 2005 y 2015 por voluntarios bajo la supervisión del departamento de parques y áreas de recreo de esta ciudad estadounidense. Más información
Registro de colisiones de vehículos de motor de la policía de Nueva York
Este conjunto de datos, publicado por la policía, incluye información sobre las colisiones de vehículos motorizados producidas desde el 2012 hasta la actualidad en esta ciudad estadounidense. Más información
Datos de imágenes libres
Este conjunto de datos se compone de unos 9 millones de URL a imágenes con etiquetas, que abarcan más de 6000 categorías. Más información

Conjuntos de datos de imágenes geográficas

Landsat
Este conjunto de datos de imágenes por satélite procedente del servicio geológico de EE. UU. (USGS) contiene millones de imágenes multiespectrales de la superficie terrestre con una resolución de entre 15 y 60 metros por píxel, desde 1982 hasta la actualidad. Más información
Conjuntos de datos de Earth Engine
El catálogo de datos públicos de Earth Engine incluye diferentes conjuntos de datos estándar de tramas de las ciencias de la Tierra. Más información
Sentinel‑2
Este conjunto de datos proporcionado por la Agencia Espacial Europea (ESA) contiene imágenes multiespectrales por satélite de la superficie terrestre con una resolución de entre 10 y 60 metros por píxel desde el 2015 hasta la actualidad. Más información
NEXRAD
Este conjunto se compone de datos recogidos con una red de 160 radares meteorológicos Doppler de alta resolución que gestionan varios organismos estadounidenses: el servicio nacional de meteorología (NWS) de la administración nacional oceánica y atmosférica (NOAA), la dirección de aviación civil (FAA) y el Ejército del Aire (USAF). Más información

Conjuntos de datos genómicos

1000 Genomas
Este conjunto de datos está compuesto por unos 2500 genomas de 25 poblaciones del mundo. Más información
Genomas de referencia
Incluye genomas de referencia, como GRCh37, GRCh37‑lite, GRCh38, hg19, hs37d5 y b37. Más información
Platinum Genomes de Illumina
Este conjunto de datos incluye los 17 integrantes de la mutación 1463 del CEPH (centro de estudios del polimorfismo humano). Más información
Simons Genome Diversity Project
Este conjunto de datos incluye 25 genomas de 13 poblaciones diversas, que sirven como base experimental para este proyecto de diversidad genómica. Más información
Datos del TCGA en la nube sobre el genoma del cáncer
Estos datos del atlas del genoma del cáncer (TCGA) están a disposición del público en general e incluyen métodos para desencadenar mutaciones somáticas, datos clínicos, perfiles de expresión de mARN y miARN, información sobre metilación del ADN y perfiles de expresión de proteínas de 33 tipos de tumores diferentes. Más información
Base de datos del proyecto MSSNG para investigadores del autismo
Este conjunto de datos se compone de una colección en continuo crecimiento de genomas de Illumina y de Complete Genomics, recogidos de familias donde hay casos de autismo. Más información

Precios de los conjuntos de datos públicos

Si tienes una cuenta de Google, puedes acceder gratis a los conjuntos de datos públicos de Google Cloud. Si realizas consultas grandes o los utilizas para determinados casos prácticos, se pueden aplicar cargos.

  • BigQuery: tienes acceso gratuito a 1 TB (como máximo) al mes de consultas en los conjuntos de datos públicos alojados en BigQuery. Pasado ese límite, el uso está sujeto a los precios de las consultas.
  • Google Cloud Storage: tienes acceso gratuito a los conjuntos de datos públicos alojados en Google Cloud Storage, como datos de trama y datos genómicos. Solo pagas por los recursos de GCP que uses para analizar los datos, como recursos informáticos o más almacenamiento para tus propias aplicaciones.