Set di dati pubblici BigQuery

Un set di dati pubblico è qualsiasi set di dati archiviato in BigQuery e reso disponibile al pubblico tramite il programma per set di dati pubblici di Google Cloud. I set di dati pubblici sono ospitati da BigQuery per consentirti di accedere alle tue applicazioni e di integrarli. Google paga l'archiviazione di questi set di dati e fornisce l'accesso pubblico ai dati tramite un progetto. Paghi solo per le query eseguite sui dati. Il primo TB al mese è gratuito, soggetto ai dettagli dei prezzi delle query.

I set di dati pubblici sono disponibili per l'analisi utilizzando query SQL precedente o GoogleSQL. Utilizza un nome di tabella completo quando esegui query su set di dati pubblici, ad esempio bigquery-public-data.bbc_news.fulltext. Se la tua organizzazione limita l'accesso ai dati, ad esempio con i perimetri di sicurezza, potrebbe essere necessario contattare l'amministratore per richiedere l'autorizzazione ad accedere ai set di dati pubblici.

Puoi accedere ai set di dati pubblici di BigQuery utilizzando la console Google Cloud, lo strumento a riga di comando bq o chiamate all'API REST BigQuery mediante varie librerie client, tra cui Java, .NET o Python. Puoi anche visualizzare ed eseguire query su set di dati pubblici tramite Analytics Hub, una piattaforma di scambio di dati che ti aiuta a scoprire e accedere alle librerie di dati.

I set di dati pubblici non sono accessibili per impostazione predefinita dall'interno di un perimetro Controlli di servizio VPC. Non esiste un accordo sul livello del servizio (SLA) per il programma per i set di dati pubblici.

Vai ad Analytics Hub

Per ulteriori dettagli su ogni singolo set di dati, fai clic sul nome del set di dati nella sezione Set di dati di Cloud Marketplace.

Vai a Set di dati in Cloud Marketplace

Prima di iniziare

Per iniziare a utilizzare un set di dati pubblico BigQuery, devi creare o selezionare un progetto. Il primo terabyte di dati elaborati al mese è gratuito, quindi puoi iniziare a eseguire query su set di dati pubblici senza abilitare la fatturazione. Se intendi andare oltre il livello gratuito, devi abilitare anche la fatturazione.

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  6. BigQuery viene abilitato automaticamente nei nuovi progetti. Per attivare BigQuery in un progetto preesistente,

    Attiva l'API BigQuery.

    Abilita l'API

Località set di dati pubblici

Ogni set di dati pubblico viene archiviato in una località specifica come US o EU. Attualmente, le tabelle BigQuery di esempio sono archiviate nella località multiregionale US. Quando esegui una query su una tabella di esempio, fornisci il flag --location=US nella riga di comando, scegli US come posizione di elaborazione nella console Google Cloud oppure specifica la proprietà location nella sezione jobReference della risorsa job quando utilizzi l'API. Poiché le tabelle di esempio sono archiviate negli Stati Uniti, non puoi scrivere i risultati delle query di tabelle di esempio in una tabella di un'altra regione né unire tabelle di esempio a tabelle di un'altra regione.

Accedi a set di dati pubblici nella console Google Cloud

Puoi accedere ai set di dati pubblici nella console Google Cloud utilizzando i seguenti metodi:

Per sapere quando una tabella di dati è stata aggiornata l'ultima volta, vai alla sezione Dettagli della tabella come descritto in Recupero delle informazioni della tabella e visualizza il campo Ultima modifica.

Altri set di dati pubblici

Sono disponibili molti altri set di dati pubblici su cui eseguire le query, alcuni dei quali sono anch'essi ospitati da Google, ma molti altri sono ospitati da terze parti. Altri set di dati includono:

Condividi un set di dati con il pubblico

Puoi condividere qualsiasi set di dati con il pubblico modificando i controlli di accesso del set di dati per consentire l'accesso da parte di "Tutti gli utenti autenticati". Per ulteriori informazioni sull'impostazione dei controlli di accesso ai set di dati, consulta Controllo dell'accesso ai set di dati.

Quando condividi un set di dati con il pubblico:

  • I costi di archiviazione sono addebitati dall'account di fatturazione associato al progetto che contiene il set di dati condiviso pubblicamente.
  • I costi per le query sono addebitati dall'account di fatturazione associato al progetto in cui vengono eseguiti i job di query.

Per ulteriori informazioni, consulta la Panoramica dei prezzi di BigQuery.

Tabelle di esempio

Oltre ai set di dati pubblici, BigQuery fornisce un numero limitato di tabelle di esempio su cui puoi eseguire query. Queste tabelle sono contenute nel set di dati bigquery-public-data:samples.

I requisiti per eseguire query sulle tabelle di esempio BigQuery sono gli stessi di quelli per eseguire query sui set di dati pubblici.

Il set di dati bigquery-public-data:samples include le seguenti tabelle:

Nome Descrizione
gsod Contiene le informazioni meteorologiche raccolte dal NOAA, come la quantità di precipitazioni e la velocità del vento dalla fine del 1929 all'inizio del 2010.
github_nested Contiene una cronologia di azioni come richieste di pull e commenti sui repository GitHub con uno schema nidificato. Creato nel settembre 2012.
github_timeline Contiene una cronologia di azioni come richieste di pull e commenti sui repository GitHub con uno schema semplice. Creato nel maggio 2012.
natality Descrive tutte le nascite degli Stati Uniti registrate nei 50 Stati, nel Distretto di Columbia e a New York dal 1969 al 2008.
shakespeare Contiene un indice di parole delle opere di Shakespeare, che indica il numero di volte in cui ogni parola compare in ciascun corpus.
trigrams Contiene trigrammi in lingua inglese tratti da un campione di opere pubblicate tra il 1520 e il 2008.
wikipedia Contiene la cronologia delle revisioni completa per tutti gli articoli di Wikipedia fino ad aprile 2010.

Contattaci

Se hai domande sul programma per set di dati pubblici BigQuery, contattaci all'indirizzo bq-public-data@google.com.

Passaggi successivi

Scopri come eseguire query su una tabella in un set di dati pubblico nella pagina relativa alla guida rapida all'utilizzo della console Google Cloud.