Set di dati pubblici BigQuery
Per set di dati pubblico si intende qualsiasi set di dati archiviato in BigQuery e reso disponibile al pubblico tramite il programma Set di dati pubblico di Google Cloud. I set di dati pubblici sono set di dati che BigQuery ospita per l'accesso e l'integrazione nelle tue applicazioni. Google paga l'archiviazione di questi set di dati e fornisce l'accesso pubblico ai dati tramite un progetto. Paghi solo per le query che esegui sui dati. Il primo TB al mese è gratuito, soggetto ai dettagli dei prezzi delle query.
I set di dati pubblici sono disponibili per l'analisi tramite query SQL precedenti o SQL standard. Utilizza un nome tabella completo quando esegui query su set di dati pubblici, ad esempio bigquery-public-data.bbc_news.fulltext
.
Puoi accedere ai set di dati pubblici di BigQuery utilizzando Google Cloud Console, lo strumento a riga di comando bq
o effettuando chiamate all'API REST di BigQuery tramite una varietà di librerie client, come Java, .NET o Python.
Puoi anche visualizzare ed eseguire query sui set di dati pubblici tramite
Analytics Hub,
una piattaforma di scambio di dati in anteprima che ti aiuta a scoprire e ad accedere alle librerie di dati.
Per visualizzare ulteriori dettagli su ogni singolo set di dati, fai clic sul nome del set di dati nella sezione Set di dati di Cloud Marketplace.
Vai ai set di dati in Cloud Marketplace
Prima di iniziare
Per iniziare a utilizzare un set di dati pubblico BigQuery, devi creare o selezionare un progetto. Il primo terabyte di dati elaborati al mese è gratuito, quindi puoi iniziare a eseguire query sui set di dati pubblici senza abilitare la fatturazione. Se intendi andare oltre il livello gratuito, devi anche abilitare la fatturazione.
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Cloud. Scopri come verificare se la fatturazione è abilitata su un progetto.
-
Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Cloud. Scopri come verificare se la fatturazione è abilitata su un progetto.
- BigQuery viene abilitato automaticamente nei nuovi progetti.
Per attivare BigQuery in un progetto preesistente,
Attiva l'API BigQuery.
Località dei set di dati pubblici
Ogni set di dati pubblico viene archiviato in una posizione specifica come US
o
EU
. Al momento, le tabelle di esempio BigQuery sono archiviate nella località con più aree geografiche US
.
Quando esegui una query su una tabella di esempio, fornisci il flag --location=US
nella riga di comando, scegli US
come località di elaborazione in Google Cloud Console oppure specifica la proprietà location
nella sezione jobReference
della risorsa del lavoro quando utilizzi l'API. Poiché le tabelle di esempio sono archiviate negli Stati Uniti, non puoi scrivere risultati di query per una tabella in un'altra area geografica e non puoi unire tabelle di esempio con tabelle in un'altra area geografica.
Accedere ai set di dati pubblici in Google Cloud Console
Puoi accedere ai set di dati pubblici in Google Cloud Console tramite i seguenti metodi:
Visualizza il progetto
bigquery-public-data
nel riquadro Explorer del riquadro di navigazione. Il progetto del set di dati pubblico è bloccato in ogni progetto. Per visualizzare i set di dati e le tabelle pubblici in questo progetto, consulta la sezione Visualizzare le risorse.Se il progetto non è visualizzato, cerca "bigquery-public-data" e fai clic su "Amplia la ricerca a tutti i progetti". Puoi anche fissare il progetto nel riquadro Explorer.
Utilizza Analytics Hub (anteprima) per visualizzare e sottoscrivere set di dati pubblici.
Per scoprire quando è stata aggiornata la tabella dei dati, vai alla sezione Dettagli della tabella come descritto in Ottenere informazioni sulla tabella e visualizza il campo Ultima modifica.
Altri set di dati pubblici
Hai a disposizione molti altri set di dati pubblici su cui eseguire query, alcuni dei quali sono ospitati anche da Google, ma molti altri sono ospitati da terze parti. Altri set di dati includono:
- Set di dati pubblici di Cloud Life Sciences
- Set di dati a raggi X per il torace NIH
- Set di dati TCIA (Cancer Imaging Archive)
- Set di dati disponibili pubblicamente su BigQuery (reddit.com)
- Set di dati di note di rilascio per la maggior parte dei prodotti Google Cloud generalmente disponibili.
Condividere un set di dati con il pubblico
Puoi condividere uno o più tuoi set di dati con il pubblico modificando i controlli di accesso del set di dati per consentire l'accesso a "Tutti gli utenti autenticati". Per ulteriori informazioni sull'impostazione dei controlli di accesso al set di dati, consulta Controllo dell'accesso ai set di dati.
Quando condividi un set di dati con il pubblico:
- I costi di archiviazione sono sostenuti dall'account di fatturazione associato al progetto che contiene il set di dati condiviso pubblicamente.
- I costi delle query sono applicati dall'account di fatturazione associato al progetto in cui vengono eseguiti i job di query.
Per ulteriori informazioni, consulta la panoramica dei prezzi di BigQuery.
Tabelle di esempio
Oltre ai set di dati pubblici, BigQuery fornisce un numero limitato di tabelle di esempio su cui puoi eseguire query. Queste tabelle sono contenute nel set di dati bigquery-public-data:samples
.
I requisiti per eseguire query sulle tabelle di esempio BigQuery sono gli stessi per le query ai set di dati pubblici.
Il set di dati bigquery-public-data:samples
include le seguenti tabelle:
Nome | Descrizione |
---|---|
gsod |
Contiene informazioni sul meteo raccolte da NOAA, ad esempio la quantità di precipitazioni e la velocità del vento tra la fine del 1929 e l'inizio del 2010. |
github_nested |
Contiene una sequenza temporale di azioni come richieste di pull e commenti ai repository GitHub con uno schema nidificato. Creato a settembre 2012. |
github_timeline |
Contiene una sequenza temporale di azioni come richieste di pull e commenti ai repository GitHub con uno schema piatto. Creato a maggio 2012. |
natality |
Descrive tutte le nascite degli Stati Uniti registrate nei 50 stati, nel Distretto di Columbia e in New York City dal 1969 al 2008. |
shakespeare |
Contiene un indice parola delle opere di Shakespeare, che indica il numero di volte in cui ogni parola compare in ogni corpus. |
trigrams |
Contiene diagrammi di lingua inglese da un campione di opere pubblicate tra il 1520 e il 2008. |
wikipedia |
Contiene la cronologia completa delle revisioni di tutti gli articoli di Wikipedia fino ad aprile 2010. |
Contattaci
Per eventuali domande sul programma del set di dati pubblico BigQuery, contattaci all'indirizzo bq-public-data@google.com
.
Passaggi successivi
Scopri come eseguire una query su una tabella in un set di dati pubblico alla pagina Guida rapida di Google Cloud Console.