Conjuntos de datos públicos

Accede a una variedad de conjuntos de datos públicos alojados en Google Cloud Platform y analízalos

Pruébalo gratis

Accede a los datos y analízalos

Los conjuntos de datos públicos de Google Cloud Platform hacen que sea fácil para los usuarios acceder a datos en la nube y analizarlos. Estos conjuntos de datos están alojados de manera gratuita y se puede acceder a ellos mediante una variedad de almacenes de datos y software de análisis, desde Apache Spark de código abierto hasta las tecnologías de vanguardia de Google, como Google BigQuery y Google Cloud Dataflow. Desde datos genómicos o enciclopédicos estructurados hasta datos meteorológicos sin estructura, los conjuntos de datos públicos proporcionan un área de prueba para aquellos que no están familiarizados con los macrodatos y el análisis de datos, y un potente repositorio para los investigadores preparados. También puedes integrarlos con tus aplicaciones para agregar información valiosa para los usuarios. Cualquiera que sea tu caso de uso, estos conjuntos de datos son de libre disposición en GCP.

Accede a los datos y analízalos

Conjuntos de datos públicos de Google BigQuery

BigQuery aloja una variedad de conjuntos de datos públicos que se pueden analizar con el conocido SQL. Los usuarios pueden solicitar estos datos directamente en la IU web de BigQuery o de manera programática con la API de REST de BigQuery. Estos conjuntos de datos son gratuitos y cualquiera puede acceder a ellos. Puedes solicitar hasta 1 TB de datos al mes gratuitamente. Solo pagas por las solicitudes que realices por sobre esta cuota gratuita, según los detalles de precios de las solicitudes.

Video sobre cómo ejecutar un terabyte de consultas de Google BigQuery cada mes y sin tarjeta de crédito
Cómo hacer consultas en los conjuntos de datos públicos de BigQuery

Conjuntos de datos públicos de Google Genomics

Google colabora con la comunidad de investigación genómica para alojar una gama seleccionada de datos, como el Proyecto 1000 genomas, como recurso público. Puedes acceder a estos conjuntos de datos a través de la API de Google Genomics, de la interfaz web de BigQuery y los ejemplos de código abierto.

Conjuntos de datos públicos de Google Genomics

Conjuntos de datos de imágenes geográficas

Los conjuntos de datos de imágenes de los satélites Landsat y Sentinel, al igual que los conjuntos de datos del radar NEXRAD Doppler, están disponibles en Google Cloud Storage. Puedes usar GCP para realizar análisis y desarrollar nuevos productos sin necesidad de preocuparte por los costos de almacenamiento de los datos o por el tiempo y los costos requeridos para descargar conjuntos de datos muy grandes.

Además de estos conjuntos de datos alojados en Google Cloud Storage, una amplia variedad de conjuntos de datos de ciencias de la Tierra también se encuentran disponibles en Earth Engine. Earth Engine proporciona un editor de códigos basado en la Web, diseñado para que el desarrollo de flujos de trabajo geoespaciales complejos sea más rápido y fácil.

Conjuntos de datos de imágenes geográficas

Conjuntos de datos de BigQuery

Viajes con Bay Area Bike Share
Estos datos incluyen todos los viajes de Bay Area Bike Share desde agosto de 2013 hasta la actualidad y se actualizan a diario. Más información
Recopilatorio de libros GDELT
Un conjunto de datos que contiene 3.5 millones de libros digitalizados, que se remontan a dos siglos atrás y abarcan las colecciones completas de dominio público de habla inglesa de Internet Archive (1.3 millones de volúmenes) y HathiTrust (2.2 millones de volúmenes). Más información
Datos de GitHub
Este conjunto de datos públicos contiene datos de actividad de GitHub para más de 2.8 millones de repositorios de código abierto de GitHub, más de 145 millones de confirmaciones únicas, más de 2 mil millones de rutas de archivo diferentes y el contenido de la última revisión de 163 millones de archivos. Más información
Datos del formulario 990 del IRS
Un conjunto de datos que contiene información financiera de las organizaciones sin fines de lucro o exentas de impuestos en los Estados Unidos, recopilados por el Servicio de Impuestos Internos (Internal Revenue Service, IRS) mediante el formulario 990. Más información
Datos de Stack Overflow
Este conjunto de datos públicos contiene un archivo del contenido de Stack Overflow, que incluye entradas, votos, etiquetas e insignias. Más información
Datos de los árboles de las calles de San Francisco
Estos datos incluyen una lista de los árboles que preserva el Departamento de Obras Públicas de San Francisco, incluidos los datos sobre la fecha de plantación, la especie y la ubicación. Más información
Datos sobre las denuncias realizadas en la Policía de San Francisco
Estos datos incluyen incidentes reportados en el sistema de denuncias de delitos del Departamento de la Policía de San Francisco (SFPD), desde enero de 2003 hasta la actualidad. Más información
Datos del servicio de llamadas del Departamento de Bomberos de San Francisco
Estos datos incluyen las respuestas de la unidad de bomberos a las llamadas, desde abril de 2000 hasta la actualidad, y se actualizan a diario. Los datos incluyen el número de llamada, el número del incidente, la dirección, la identificación de la unidad, el tipo de llamada y la disposición. Más información
Datos de las solicitudes al servicio 311 en San Francisco
Estos datos incluyen todas las solicitudes del servicio 311 en San Francisco, desde julio de 2008 hasta la actualidad, y se actualizan a diario. Más información
Nombres de EE.UU.
Conjunto de datos de la Administración de seguridad social que contiene los nombres de las solicitudes de tarjetas de Seguridad Social para los nacimientos que tuvieron lugar en Estados Unidos después de 1879. Más información
Vigilancia de enfermedades de EE.UU.
Conjunto de datos publicados por el Departamento de Salud y Servicios Humanos de los EE.UU. que incluye todos los informes de vigilancia semanal de las enfermedades de notificación obligatoria a nivel nacional para todas las ciudades y estados de los EE.UU. publicados entre 1888 y 2013. Más información
Oficina de Estadísticas Laborales de los Estados Unidos
Este conjunto de datos incluye estadísticas sobre la inflación, los precios, el desempleo, los salarios y los beneficios que proporciona la Oficina de Estadísticas Laborales (BLS). Más información
Hacker News
Un conjunto de datos que contiene todas las historias y los comentarios de Hacker News desde su lanzamiento en 2006. Más información
Datos de las Ligas Mayores de Béisbol
Estos datos públicos incluyen datos de cada lanzamiento de los partidos de las Ligas Mayores de Béisbol (MLB) de 2016. Más información
Datos de Medicare
Este conjunto de datos públicos fue creado por los Centers for Medicare & Medicaid Services. Los datos resumen la utilización y los pagos por procedimientos, servicios y medicamentos recetados a los beneficiarios de Medicare. Más información
Datos meteorológicos de NOAA GSOD
Este conjunto de datos públicos, que fue creado por la Administración Nacional Oceánica y Atmosférica (NOAA), incluye datos globales obtenidos a partir del Centro de Climatología de la Fuerza Aérea de EE.UU. Este conjunto abarca los datos de GSOD entre 1929 y 2016, recopilados de más de 9,000 estaciones. Más información
NOAA GHCN
Este conjunto de datos públicos, que fue creado por la Administración Nacional Oceánica y Atmosférica (NOAA), incluye resúmenes meteorológicos de estaciones terrestres de todo el mundo que han estado sujetas a un conjunto común de revisiones de garantía de calidad. Este conjunto de datos proviene de más de 20 fuentes, incluidos algunos datos de cada año desde 1763. Más información
Viajes con NYC TLC
Datos recopilados por la Comisión de Taxis y Limusinas de Nueva York (TLC), que incluyen los registros de todos los viajes completados en los taxis amarillos y verdes en Nueva York, desde 2009 hasta la actualidad. Más información
Solicitudes del servicio 311 en Nueva York
Estos datos públicos incluyen todas las solicitudes del servicio 311, desde 2010 hasta la actualidad, y se actualizan a diario. El 311 es un número de servicio que proporciona acceso a servicios municipales que no son de emergencia. Más información
Viajes con NYC Citi Bike
Datos recolectados por el programa de viajes compartidos de NYC Citi Bike, que incluye los registros de viajes de 10,000 bicicletas y 600 estaciones en Manhattan, Brooklyn, Queens y Jersey City, desde el lanzamiento de Citi Bike en septiembre de 2013. Más información
Censo de los árboles de NYC
Los datos de los árboles de las calles de la ciudad de Nueva York incluyen la información de los censos de árboles urbanos realizados en 1995, 2005 y 2015, que realizaron voluntarios organizados por el Departamento de Parques y Recreación de la ciudad de Nueva York. Más información
Datos de accidentes de tránsito del NYPD
Estos datos incluyen los detalles sobre los accidentes de tránsito vehicular de la ciudad de Nueva York, proporcionados por el Departamento de la Policía (NYPD), desde 2012 hasta la actualidad. Más información
Datos de imágenes abiertas
Un conjunto de datos que consta de casi 9 millones de URL a imágenes que se han etiquetado y que abarcan más de 6,000 categorías. Más información

Conjuntos de datos de imágenes geográficas

Landsat
Un conjunto de datos de imágenes satelitales del Servicio Geológico de los Estados Unidos (USGS), que incluye millones de imágenes multiespectrales de la superficie de la Tierra, en resoluciones de entre 15 y 60 metros por píxel, desde 1982 hasta la fecha. Más información
Conjuntos de datos de Earth Engine
El catálogo de datos públicos de Earth Engine incluye una variedad de conjuntos de datos de trama estándar de ciencias de la Tierra. Más información
Sentinel-2
Un conjunto de datos de imágenes satelitales de la Agencia Espacial Europea (ESA), que incluye imágenes multiespectrales de la superficie de la Tierra, con una resolución de 10 a 60 metros por píxel, desde 2015 hasta la fecha. Más información
NEXRAD
Un conjunto de datos del radar del clima, recopilados por una red de 160 radares climáticos Doppler de alta resolución, operados por el Servicio Nacional de Meteorología (NWS) de la NOAA, la Administración Federal de Aviación (FAA) y la Fuerza Aérea de los EE.UU. (USAF). Más información

Conjuntos de datos de Genomics

1,000 genomas
Este conjunto de datos abarca cerca de 2,500 genomas de 25 poblaciones alrededor del mundo. Más información
Genomas de referencia
Genomas de referencia como GRCh37, GRCh37lite, GRCh38, hg19, hs37d5 y b37. Más información
Illumina Platinum Genomes
Este conjunto de datos incluye el linaje de los 17 miembros del pedigrí 1463 del CEPH. Más información
Simons Genome Diversity Project
Este conjunto de datos está compuesto por 25 genomas de 13 poblaciones distintas, y sirvió como el conjunto de datos del proyecto piloto para el Simons Genome Diversity Project. Más información
Datos genómicos del cáncer del TCGA en la nube
Datos de acceso abierto del TCGA, que incluyen avisos de mutación somática, datos clínicos, expresiones mRNA y miRNA, metilación de ADN y expresión proteica de 33 tipos diferentes de tumores. Más información
Base de datos de MSSNG para investigadores del autismo
Este conjunto de datos está compuesto por una colección (que aumenta cada vez más) de genomas de Illumina y Complete Genomics de las familias afectadas por el autismo. Más información

Precios de los conjuntos de datos públicos

Los conjuntos de datos públicos de Google Cloud son de acceso libre con una cuenta de Google. Se pueden aplicar cargos para solicitudes de gran envergadura y casos de uso específicos.

  • BigQuery: los conjuntos de datos públicos alojados en BigQuery proporcionan acceso gratuito a los usuarios para hasta 1 TB al mes en solicitudes. Las solicitudes que superen 1 TB al mes están sujetas a precios por solicitud.
  • Google Cloud Storage: los conjuntos de datos públicos alojados en Google Cloud Storage, como los datos de trama y de Genomics, son de libre acceso. Solo pagas por los recursos de GCP que uses para analizar los datos, como los recursos de procesamiento o el almacenamiento adicional que uses en tus propias aplicaciones.