Panoramica dell'analisi di BigQuery

Questo documento descrive come BigQuery elabora le query e fornisce una panoramica di diverse funzionalità utili per comprendere e analizzare i dati.

BigQuery è ottimizzato per eseguire query analitiche su set di dati di grandi dimensioni, inclusi terabyte di dati in pochi secondi e petabyte in pochi minuti. Comprendere le sue funzionalità e il modo in cui elabora le query può aiutarti a massimizzare i tuoi investimenti nell'analisi dei dati.

Per fare un tour delle funzionalità di analisi dei dati di BigQuery direttamente nella console Google Cloud , fai clic su Fai il tour.

Inizia il tour

Workflow analitici

BigQuery supporta diversi flussi di lavoro di analisi dei dati:

  • Analisi ad hoc. BigQuery utilizza GoogleSQL, il dialetto SQL in BigQuery, per supportare l'analisi ad hoc. Puoi eseguire query nella console Google Cloud o tramite strumenti di terze parti che si integrano con BigQuery.

  • Analisi geospaziale. BigQuery utilizza i tipi di dati geografici e le funzioni geografiche GoogleSQL per consentirti di analizzare e visualizzare i dati geospaziali. Per informazioni su questi tipi di dati e funzioni, vedi Introduzione all'analisi geospaziale.

  • Cerca i dati. Puoi indicizzare i tuoi dati per eseguire ricerche flessibili e ottimizzate su testo non strutturato o dati JSON semistrutturati.

  • Cerca Google Cloud risorse. Utilizza la ricerca in linguaggio naturale (anteprima) per scoprire Google Cloud risorse all'interno di BigQuery.

  • Machine learning. BigQuery ML utilizza query GoogleSQL per consentirti di creare ed eseguire modelli di machine learning (ML) in BigQuery.

  • Business intelligence. BigQuery BI Engine è un servizio di analisi in memoria rapido che ti consente di creare dashboard e report avanzati e interattivi senza compromettere prestazioni, scalabilità, sicurezza o aggiornamento dei dati.

  • Assistenza AI. Puoi utilizzare Gemini in BigQuery per preparare ed esplorare i tuoi dati, generare query SQL e codice Python e visualizzare i risultati.

Esplorazione dei dati

BigQuery può aiutarti a comprendere i tuoi dati prima di iniziare a scrivere query SQL. Utilizza le seguenti funzionalità se non hai familiarità con i tuoi dati, non sai quali domande porre o hai bisogno di aiuto per scrivere codice SQL:

  • Esplora tabelle. Esplora visivamente l'intervallo e la frequenza dei valori nella tabella e crea query in modo interattivo.

  • Approfondimenti sui dati. Genera domande in linguaggio naturale sui tuoi dati, insieme alle query SQL per rispondere a queste domande.

  • Scansione del profilo di dati. Visualizza le caratteristiche statistiche dei tuoi dati, inclusi i valori medio, univoco, massimo e minimo.

  • Canvas di dati. Esegui query sui dati utilizzando il linguaggio naturale, visualizza i risultati con grafici e poni domande aggiuntive.

Query

Il modo principale per analizzare i dati in BigQuery è eseguire una query SQL. Il dialetto GoogleSQL supporta SQL:2011 e include estensioni che supportano l'analisi geospaziale e il machine learning.

Origini dati

BigQuery consente di eseguire query sui seguenti tipi di origini dati:

  • Dati archiviati in BigQuery. Puoi caricare i dati in BigQuery, modificare i dati esistenti utilizzando le istruzioni DML (Data Manipulation Language) o scrivere i risultati della query in una tabella. Puoi eseguire query sui dati storici da un momento specifico all'interno della finestra di spostamento cronologico.

    Puoi eseguire query sui dati archiviati in località a singola regione o multi-regione, ma non puoi eseguire una query su più località anche se una è una località a singola regione e l'altra è la località multi-regione che contiene quella a singola regione. Per ulteriori informazioni, vedi Località, prenotazioni e job.

  • Dati esterni. Puoi eseguire query su varie origini dati esterne, come Cloud Storage o servizi di database come Spanner o Cloud SQL. Per informazioni su come configurare le connessioni a origini esterne, consulta Introduzione alle origini dati esterne.

  • Dati multi-cloud. Puoi eseguire query sui dati archiviati in altri cloud pubblici come AWS o Azure. Per informazioni su come configurare le connessioni ad Amazon Simple Storage Service (Amazon S3) o Azure Blob Storage, consulta Introduzione a BigQuery Omni.

  • Set di dati pubblici. Puoi analizzare uno qualsiasi dei set di dati disponibili nel marketplace dei set di dati pubblici.

  • BigQuery sharing (in precedenza Analytics Hub). Puoi pubblicare e sottoscrivere set di dati BigQuery e argomenti Pub/Sub per condividere i dati oltre i confini organizzativi. Per ulteriori informazioni, vedi Introduzione alla condivisione di BigQuery.

Tipi di query

Puoi eseguire query sui dati BigQuery utilizzando uno dei seguenti tipi di job di query:

  • Job di query interattive. Per impostazione predefinita, BigQuery esegue le query come job di query interattive, che devono iniziare l'esecuzione il più rapidamente possibile.

  • Job di query batch. Le query batch hanno una priorità inferiore rispetto alle query interattive. Quando un progetto o una prenotazione utilizza tutte le risorse di calcolo disponibili, è più probabile che le query batch vengano messe in coda e rimangano in coda. Dopo l'avvio di una query batch, questa viene eseguita come una query interattiva. Per ulteriori informazioni, consulta la sezione Code di query.

  • Job di query continui. Con questi job, la query viene eseguita continuamente, consentendoti di analizzare i dati in entrata in BigQuery in tempo reale e quindi scrivere i risultati in una tabella BigQuery o esportarli in Bigtable o Pub/Sub. Puoi utilizzare questa funzionalità per eseguire attività sensibili al tempo, come creare e agire immediatamente in base agli approfondimenti, applicare l'inferenza di machine learning (ML) in tempo reale e creare pipeline di dati basate su eventi.

Puoi eseguire job di query utilizzando i seguenti metodi:

Query salvate e condivise

BigQuery ti consente di salvare le query e condividere le query con altri utenti.

Quando salvi una query, questa può essere privata (visibile solo a te), condivisa a livello di progetto (visibile a principal specifici) o pubblica (visibile a chiunque). Per saperne di più, vedi Utilizzare le query salvate.

Come BigQuery elabora le query

Quando BigQuery esegue una query, si verificano diversi processi:

  • Albero di esecuzione. Quando esegui una query, BigQuery genera un albero di esecuzione che suddivide la query in fasi. Queste fasi contengono passaggi che possono essere eseguiti in parallelo.

  • Livello di riproduzione casuale. Le fasi comunicano tra loro utilizzando un livello di shuffle distribuito e veloce che archivia i dati intermedi prodotti dai worker di una fase. Quando possibile, il livello di rimescolamento sfrutta tecnologie come una rete petabit e la RAM per spostare rapidamente i dati nei nodi di lavoro.

  • Piano di query. Quando BigQuery dispone di tutte le informazioni necessarie per eseguire una query, genera un piano di query. Puoi visualizzare il piano di query nella console Google Cloud e utilizzarlo per risolvere i problemi o ottimizzare il rendimento delle query.

  • Grafico di esecuzione delle query. Puoi esaminare le informazioni sul piano di query in formato grafico per qualsiasi query, in esecuzione o completata, e visualizzare approfondimenti sul rendimento per ottimizzare le query.

  • Monitoraggio delle query e pianificazione dinamica. Oltre ai worker che eseguono il lavoro del piano di query stesso, altri worker monitorano e dirigono l'avanzamento complessivo del lavoro in tutto il sistema. Man mano che la query procede, BigQuery potrebbe modificare dinamicamente il piano di query per adattarlo ai risultati delle varie fasi.

  • Risultati della query. Al termine di una query, BigQuery scrive i risultati nell'archiviazione permanente e li restituisce all'utente. Questo design consente a BigQuery di pubblicare risultati memorizzati nella cache la volta successiva che la query viene eseguita.

Concorrenza e prestazioni delle query

Il rendimento delle query eseguite ripetutamente sugli stessi dati può variare a causa della natura condivisa dell'ambiente BigQuery, dell'utilizzo dei risultati delle query memorizzati nella cache o perché BigQuery regola dinamicamente il piano di query durante l'esecuzione della query. Per un sistema tipico occupato in cui vengono eseguite molte query contemporaneamente, BigQuery utilizza diversi processi per uniformare le variazioni nelle prestazioni delle query:

  • BigQuery esegue molte query in parallelo e può accodare le query da eseguire quando le risorse sono disponibili.

  • Man mano che le query iniziano e terminano, BigQuery ridistribuisce le risorse in modo equo tra le query nuove e quelle in esecuzione. Questa procedura garantisce che le prestazioni delle query non dipendano dall'ordine in cui vengono inviate ma piuttosto dal numero di query eseguite in un determinato momento.

Ottimizzazione delle query

Quando esegui una query, puoi visualizzare il piano di query nella console Google Cloud . Puoi anche richiedere i dettagli di esecuzione utilizzando le visualizzazioni INFORMATION_SCHEMA.JOBS* o il metodo jobs.get API REST.

Il piano di query include dettagli su fasi e passaggi della query. Questi dettagli possono aiutarti a identificare i modi per migliorare le prestazioni delle query. Ad esempio, se noti una fase che scrive molti più output rispetto alle altre, potrebbe significare che devi filtrare prima nella query.

Per ulteriori informazioni sul piano di query e sull'ottimizzazione delle query, consulta le seguenti risorse:

Monitoraggio delle query

Il monitoraggio e il logging sono fondamentali per eseguire applicazioni affidabili nel cloud. I workload BigQuery non fanno eccezione, soprattutto se il tuo workload ha volumi elevati o è fondamentale per la missione. BigQuery fornisce varie metriche, log e viste dei metadati per aiutarti a monitorare l'utilizzo di BigQuery.

Per maggiori informazioni, consulta le seguenti risorse:

Prezzi delle query

BigQuery offre due modelli di prezzo per l'analisi:

  • Prezzi on demand. Paghi per i dati analizzati dalle query. Hai una capacità di elaborazione delle query fissa per ogni progetto e il costo si basa sul numero di byte elaborati.
  • Prezzi basati sulla capacità. Acquisti una capacità di elaborazione delle query dedicata.

Per informazioni sui due modelli di prezzi e per scoprire di più su come effettuare prenotazioni per i prezzi basati sulla capacità, consulta Introduzione alle prenotazioni.

Quote e controlli dei costi delle query

BigQuery applica quote a livello di progetto per l'esecuzione delle query. Per informazioni sulle quote di query, consulta Quote e limiti.

Per controllare i costi delle query, BigQuery offre diverse opzioni, tra cui quote personalizzate e avvisi di fatturazione. Per saperne di più, vedi Creare controlli dei costi personalizzati.

Funzionalità di analisi dei dati

BigQuery supporta l'analisi descrittiva e predittiva e ti aiuta a esplorare i tuoi dati con strumenti basati sull'AI, SQL, machine learning, notebook e altre integrazioni di terze parti.

BigQuery Studio

BigQuery Studio ti aiuta a scoprire, analizzare ed eseguire l'inferenza sui dati in BigQuery con le seguenti funzionalità:

BigQuery ML

BigQuery ML consente di utilizzare SQL in BigQuery per eseguire machine learning (ML) e analisi predittiva. Per ulteriori informazioni, vedi Introduzione a BigQuery ML.

Integrazione degli strumenti di analisi

Oltre a eseguire query in BigQuery, puoi analizzare i dati con vari strumenti di analisi e business intelligence che si integrano con BigQuery, ad esempio:

  • Looker. Looker è una piattaforma aziendale per business intelligence, applicazioni di dati e analisi incorporate. La piattaforma Looker funziona con molti datastore, tra cui BigQuery. Per informazioni su come connettere Looker a BigQuery, consulta Utilizzo di Looker.

  • Looker Studio. Dopo aver eseguito una query, puoi avviare Looker Studio direttamente da BigQuery nella consoleGoogle Cloud . Poi, in Looker Studio puoi creare visualizzazioni ed esplorare i dati restituiti dalla query. Per informazioni su Looker Studio, consulta la panoramica di Looker Studio.

  • Fogli connessi. Puoi anche avviare Fogli connessi direttamente da BigQuery nella console. Fogli connessi esegue le query BigQuery per tuo conto su tua richiesta o in base a una pianificazione definita. I risultati di queste query vengono salvati nel foglio di lavoro per l'analisi e la condivisione. Per informazioni su Fogli connessi, vedi Utilizzare Fogli connessi.

  • Tableau. Puoi connetterti a un set di dati da Tableau. Utilizza BigQuery per generare grafici, dashboard e altre visualizzazioni di dati.

Integrazione di strumenti di terze parti

Diversi strumenti di analisi di terze parti funzionano con BigQuery. Ad esempio, puoi connettere Tableau ai dati BigQuery e utilizzare i suoi strumenti di visualizzazione per analizzare e condividere l'analisi. Per ulteriori informazioni sulle considerazioni da fare quando utilizzi strumenti di terze parti, consulta Integrazione di strumenti di terze parti.

Sono disponibili driver ODBC e JDBC che possono essere utilizzati per integrare la tua applicazione con BigQuery. L'obiettivo di questi driver è aiutare gli utenti a sfruttare la potenza di BigQuery con strumenti e infrastrutture esistenti. Per informazioni sull'ultima release e sui problemi noti, consulta Driver ODBC e JDBC per BigQuery.

Le librerie Pandas come pandas-gbq ti consentono di interagire con i dati BigQuery nei blocchi note Jupyter. Per informazioni su questa libreria e sul suo confronto con l'utilizzo della libreria client Python di BigQuery, consulta Confronto con pandas-gbq.

Puoi anche utilizzare BigQuery con altri notebook e strumenti di analisi. Per saperne di più, consulta Strumenti di analisi programmatica.

Per un elenco completo dei partner di analisi e tecnologia BigQuery, consulta l'elenco dei partner nella pagina del prodotto BigQuery.

Passaggi successivi