Set di dati pubblici

Accedi e analizza una serie di set di dati pubblici ospitati su Google Cloud Platform

Fai una prova gratuita

Accedere e analizzare i dati

I set di dati pubblici in Google Cloud Platform semplificano l'accesso ai dati nella cloud e la relativa analisi. Questi set di dati sono ospitati e accessibili gratuitamente usando una serie di applicazioni software di data warehouse e analisi, da Apache Spark open source fino alle tecnologie Google all'avanguardia come Google BigQuery e Google Cloud Dataflow. Dai dati strutturati genomici o enciclopedici ai dati climatici non strutturati, i set di dati pubblici offrono un punto di partenza a coloro che non hanno ancora familiarità con i big data e l'analisi dei dati e forniscono un repository avanzato ai ricercatori esperti. È anche possibile l'integrazione con la propria applicazione per aggiungere informazioni utili per gli utenti. Qualunque sia il tuo caso d'uso, questi set di dati sono disponibili gratuitamente su GCP.

Accedere e analizzare i dati

Set di dati pubblici di Google BigQuery

BigQuery ospita una serie di set di dati pubblici che possono essere analizzati tramite il noto linguaggio SQL. Gli utenti possono eseguire query su questi dati direttamente nell'interfaccia utente web di BigQuery oppure in modo programmatico con l'API REST di BigQuery. Questi set di dati sono ospitati e accessibili a tutti senza costi aggiuntivi. È possibile eseguire query sui dati fino a 1 TB al mese gratuitamente. Vengono addebitate solo le query eseguite oltre questa quota gratuita, in base ai dettagli dei prezzi.

Video - Come eseguire un terabyte di query di Google BigQuery ogni mese senza carta di credito
Query sui set di dati pubblici di Google BigQuery

Set di dati pubblici di Google Genomics

Google collabora con la comunità di genomica per l'hosting di dati di genomica selezionati, ad esempio il progetto 1000 genomi, come risorsa pubblica. È possibile accedere a questi set di dati tramite l'API Google Genomics, l'interfaccia web di BigQuery e gli esempi di codice open source.

Set di dati pubblici di Google Genomics

Set di dati di immagini geografiche

I set di dati satellitari Landsat e Sentinel, nonché i set di dati radar NEXRAD Doppler, sono disponibili in Google Cloud Storage. È possibile utilizzare GCP per eseguire analisi e sviluppare nuovi prodotti senza doversi preoccupare del costo di archiviazione dei dati o del tempo e dei costi necessari per scaricare set di dati di grandi dimensioni.

Oltre a questi set di dati ospitati su Google Cloud Storage, in Earth Engine è disponibile un'ampia gamma di set di dati raster geologici standard. Earth Engine mette a disposizione un pratico editor di codice web progettato per rendere rapido e semplice lo sviluppo di flussi di lavoro geospaziali complessi.

Set di dati di immagini geografiche

Set di dati di BigQuery

Tratte percorse con il programma di bike sharing della Baia di San Francisco
Questi dati comprendono tutte le tratte percorse con il programma di bike sharing della Baia di San Francisco dall'agosto 2013 fino a oggi e vengono aggiornati quotidianamente. Ulteriori informazioni
Biblioteca GDELT
Set di dati che contiene 3,5 milioni di libri digitalizzati degli ultimi due secoli, con le raccolte complete di dominio pubblico in lingua inglese di Internet Archive (1,3 milioni di volumi) e HathiTrust (2,2 milioni di volumi). Ulteriori informazioni
Dati GitHub
Questo set di dati pubblico contiene i dati di attività GitHub per oltre 2,8 milioni di repository open source GitHub, oltre 145 milioni di commit unici, oltre 2 miliardi di percorsi file diversi e il contenuto della versione più recente per 163 milioni di file. Ulteriori informazioni
Dati IRS Form 990
Set di dati che contiene informazioni finanziarie sulle organizzazioni non profit/esenti negli Stati Uniti, raccolti dall'Internal Revenue Service (IRS) con il modulo 990. Ulteriori informazioni
Dati di Stack Overflow
Questo set di dati pubblico contiene un archivio di contenuti di Stack Overflow con post, voti, tag e badge. Ulteriori informazioni
Dati degli alberi di strada di San Francisco
Questi dati includono un elenco degli alberi di strada curati dal San Francisco Department of Public Works, con data di piantamento, specie e ubicazione. Ulteriori informazioni
Dati delle denunce della polizia di San Francisco
Questi dati comprendono eventi del sistema online di registrazione delle denunce del San Francisco Police Department (SFPD), dal gennaio 2003 fino a oggi. Ulteriori informazioni
Dati delle chiamate ai Vigili del Fuoco di San Francisco
Questi dati includono le risposte alle chiamate effettuate ai Vigili del Fuoco dall'aprile 2000 a oggi e vengono aggiornati quotidianamente. I dati contengono numero di chiamata, numero di incidente, indirizzo, identificativo della caserma, tipo di chiamata e disposizioni. Ulteriori informazioni
Dati delle richieste al servizio 311 di San Francisco
Questi dati comprendono tutte le richieste pervenute al servizio 311 di San Francisco dal luglio 2008 a oggi e vengono aggiornati quotidianamente. Ulteriori informazioni
Nomi USA
Set di dati dell'amministrazione della previdenza sociale che contiene tutti i nomi ottenuti dalle richieste di tessera di previdenza sociale per le nascite che si sono verificate negli Stati Uniti dopo il 1879. Ulteriori informazioni
Sorveglianza sanitaria USA
Set di dati pubblicato dal Department of Health and Human Services degli Stati Uniti che include tutti i report di sorveglianza settimanali per malattie con obbligo di notifica per tutte le città e gli stati statunitensi, pubblicati tra il 1888 e il 2013. Ulteriori informazioni
Dati del Bureau of Labor Statistics degli Stati Uniti
Questo set di dati comprende statistiche economiche su inflazione, prezzi, disoccupazione, retribuzioni e benefit del Bureau of Labor Statistics (BLS). Ulteriori informazioni
Hacker News
Set di dati che contiene tutti gli articoli e i commenti di Hacker News sin dal suo lancio nel 2006. Ulteriori informazioni
Dati della Major League Baseball
Includono i dati dettagliati delle partite della Major League Baseball (MLB) del 2016. Ulteriori informazioni
Dati Medicare
Questo set di dati pubblico è stato creato dal Centers for Medicare & Medicaid Services. I dati sintetizzano l'utilizzo e il pagamento di procedure, servizi e farmaci da prescrizione per i beneficiari di Medicare. Ulteriori informazioni
Dati meteorologici NOAA GSOD
Questo set di dati pubblico è stato creato dalla National Oceanic and Atmospheric Administration (NOAA) e include dati mondiali del Centro climatologico dell'aeronautica statunitense (USAF). Questo set copre i dati GSOD tra il 1929 e il 2016, raccolti da oltre 9000 stazioni. Ulteriori informazioni
NOAA GHCN
Questo set di dati pubblico è stato creato dalla National Oceanic and Atmospheric Administration (NOAA) e include riepiloghi climatici di stazioni terrestri di tutto il mondo, sottoposti a una serie comune di revisioni di controllo qualità. Questo set di dati si basa su oltre 20 fonti, compresi alcuni dati annuali a partire dal 1763. Ulteriori informazioni
Corse della NYC TLC
Dati raccolti dalla NYC Taxi and Limousine Commission (TLC) che comprendono i record per tutte le corse effettuate in taxi gialli e verdi a New York City dal 2009 a oggi. Ulteriori informazioni
Richieste al servizio 311 di New York City
Questi dati pubblici comprendono tutte le richieste pervenute al servizio 311 dal 2010 a oggi e vengono aggiornati quotidianamente. Il 311 è un numero non di emergenza che consente di accedere a servizi municipali non di emergenza. Ulteriori informazioni
Tratte Citi Bike di New York City
Dati raccolti dal programma di bike sharing Citi Bike di New York City, che comprende record delle tratte effettuate per 10.000 bici e 600 stazioni tra Manhattan, Brooklyn, Queens e Jersey City dal lancio di Citi Bike nel settembre 2013. Ulteriori informazioni
Censimento degli alberi di New York City
I dati degli alberi di strada di New York City comprendono dati dei censimenti del 1995, 2005 e 2015, condotti da volontari coordinati dal New York City Department of Parks & Recreation. Ulteriori informazioni
Incidenti stradali NYPD
Questo set di dati comprende i dettagli degli incidenti stradali a New York City, forniti dal New York Police Department (NYPD) dal 2012 ad oggi. Ulteriori informazioni
Dati di immagini pubbliche
Set di dati composto da circa 9 milioni di URL di immagini annotate con etichette per oltre 6000 categorie. Ulteriori informazioni

Set di dati di immagini geografiche

Landsat
Set di dati di immagini satellitari dello United States Geological Survey (USGS) che comprende milioni di immagini multispettrali della superficie terrestre, con risoluzioni comprese tra 15 e 60 metri per pixel, dal 1982 fino a oggi. Ulteriori informazioni
Set di dati di Earth Engine
Catalogo pubblico di dati di Earth Engine che comprende una serie di set di dati raster geologici standard. Ulteriori informazioni
Sentinel-2
Set di dati satellitari dell'Agenzia Spaziale Europea (ESA) che comprende immagini multispettrali della superficie terrestre, con risoluzioni comprese tra 10 e 60 metri per pixel, dal 2015 a oggi. Ulteriori informazioni
NEXRAD
Set di dati radar meteo raccolti da una rete di 160 radar meteo Doppler ad alta risoluzione gestiti dal NOAA National Weather Service (NWS), dalla Federal Aviation Administration (FAA) e dalla U.S. Air Force (USAF). Ulteriori informazioni

Set di dati genomici

Progetto 1000 genomi
Questo set di dati comprende circa 2500 genomi di 25 popolazioni di tutto il mondo. Ulteriori informazioni
Genomi di riferimento
Genomi di riferimento come GRCh37, GRCh37lite, GRCh38, hg19, hs37d5 e b37. Ulteriori informazioni
Illumina Platinum Genomes
Questo set comprende dati di 17 membri delle famiglie CEPH pedigree 1463. Ulteriori informazioni
Dati del Personal Genome Project
Questo set di dati comprende circa 180 genomi completi. Ulteriori informazioni
Genomi sintetici del progetto ICGC-TCGA DREAM Mutation Calling Challenge
Questo set di dati comprende le tre coppie sintetiche normali/tumorali pubbliche create per il progetto ICGC-TCGA DREAM Mutation Calling Challenge. Ulteriori informazioni
Simons Genome Diversity Project
Questo set di dati comprende 25 genomi di 13 diverse popolazioni e funge da set di dati per il progetto pilota Simons Genome Diversity Project. Ulteriori informazioni
Dati genomici sul cancro del TCGA nella cloud
Dati del TCGA (The Cancer Genome Atlas) liberamente accessibili, tra cui mutazioni somatiche, dati clinici, espressione di mRNA e miRNA, metilazione del DNA ed espressione proteica di 33 diversi tipi di tumore. Ulteriori informazioni

Prezzi dei set di dati pubblici

I set di dati pubblici di Google Cloud sono accessibili gratuitamente con un account Google. Possono essere addebitati costi per query di grandi dimensioni e particolari casi d'uso.

  • BigQuery: i set di dati pubblici ospitati in BigQuery forniscono agli utenti l'accesso gratuito fino a 1 TB/mese nelle query. Le query che superano 1 TB/mese sono soggette ai prezzi per le query.
  • Google Cloud Storage: l'accesso ai set di dati pubblici ospitati in Google Cloud Storage, come i dati raster e genomici, è gratuito. Paghi solo per le risorse GCP utilizzate per analizzare i dati, ad esempio le risorse di calcolo o l'archiviazione aggiuntiva utilizzata per le proprie applicazioni.