Panoramica dell'analisi di BigQuery

Questo documento descrive come BigQuery elabora le query e fornisce una panoramica di varie funzionalità utili per l'analisi dei dati.

BigQuery è ottimizzato per eseguire query analitiche su set di dati di grandi dimensioni, inclusi terabyte di dati in secondi e petabyte in minuti. Comprendere le sue funzionalità e il modo in cui elabora le query può aiutarti a massimizzare gli investimenti nell'analisi dei dati.

Per fare un tour diretto delle funzionalità di analisi dei dati di BigQuery Nella console Google Cloud, fai clic su Inizia il tour.

Inizia la presentazione

Flussi di lavoro di analisi

BigQuery supporta diversi flussi di lavoro di analisi dei dati:

  • Analisi ad hoc. BigQuery utilizza GoogleSQL, il dialetto SQL in BigQuery, per supportare le e analisi. Puoi eseguire query nella console Google Cloud o tramite strumenti di terze parti che si integrano con BigQuery.

  • Analisi geospaziali. BigQuery utilizza i tipi di dati geografici Funzioni geografiche di GoogleSQL per l'analisi e la visualizzazione dati geospaziali. Per informazioni su questi tipi di dati e funzioni, consulta Introduzione all'analisi geospaziale.

  • Machine learning. BigQuery ML utilizza query GoogleSQL per consentirti di creare ed eseguire modelli di machine learning (ML) in BigQuery.

  • Business intelligence. BigQuery BI Engine è un servizio di analisi in memoria rapido che consente di creare dashboard e report avanzati interattivi senza compromettere prestazioni, scalabilità, sicurezza o aggiornamento dei dati.

Query

L'unità principale di analisi in BigQuery è la query SQL. BigQuery ha due dialetti SQL: GoogleSQL e SQL precedente. GoogleSQL è il dialetto preferito. Supporta SQL:2011 e include estensioni che supportano l'analisi geospaziale o il ML.

Le seguenti sezioni descrivono in che modo BigQuery supporta ed esegue query sui dati.

Origini dati

BigQuery consente di eseguire query sui seguenti tipi di origini dati:

  • Dati archiviati in BigQuery. Puoi caricare dati in BigQuery e analisi. Puoi anche generare dati utilizzando istruzioni DML (Data Manipulation Language) o scrivendo i risultati delle query in una tabella. Puoi eseguire query sui dati archiviati in località a una o più regioni, ma non puoi eseguire una query da più località anche se una è una sola a regione e l'altra la località a più regioni contenente quella località a una singola regione. Per maggiori informazioni informazioni, consulta la sezione Località, prenotazioni e offerte di lavoro.

  • Dati esterni. Puoi eseguire query su varie origini dati esterne, ad esempio altri servizi di archiviazione Google Cloud (come Cloud Storage) o servizi di database (come Spanner o Cloud SQL). Per informazioni su come configurare le connessioni a fonti esterne, consulta Introduzione alle origini dati esterne

  • Dati multi-cloud. Puoi eseguire query su dati archiviati in altri cloud pubblici come AWS o Azure. Per informazioni su come configurare le connessioni a archiviazione BLOB di Amazon S3 o Azure, leggi un'introduzione a BigQuery Omni.

  • Set di dati pubblici. Se non disponi di dati personali, puoi analizzare uno qualsiasi dei set di dati disponibili nel marketplace dei set di dati pubblici.

Job di query

I job sono azioni che BigQuery esegue per tuo conto caricare dati, esportare dati, dati delle query oppure copia dati.

Quando utilizzi la console Google Cloud o lo strumento bq per eseguire uno di questi job, viene creata, pianificata ed eseguita automaticamente una risorsa job. Puoi anche creare in modo programmatico un job di caricamento, esportazione, query o copia. Quando crei un job in modo programmatico, BigQuery pianifica ed esegue il job per tuo conto.

Poiché il completamento dei job può richiedere molto tempo, vengono eseguiti in modo asincrono intervistati per conoscere il loro stato. Azioni più brevi, come elencare le risorse o recuperare metadati, non gestito da una risorsa job.

Tipi di query

Puoi eseguire query sui dati BigQuery utilizzando uno dei seguenti tipi di job di query:

  • Job di query interattive. Per impostazione predefinita, BigQuery esegue i job di query interattive (on demand) il prima possibile.
  • Job di query continua (anteprima). Con questi job, la query viene eseguita continuamente, consentendoti di analizzare per i dati in entrata in BigQuery in tempo reale e quindi in una tabella BigQuery o esportarli in Bigtable o Pub/Sub. Puoi utilizzare questa funzionalità per eseguire attività urgenti, come creare informazioni e intervenire immediatamente in base a queste, applicare l'inferenza di machine learning (ML) in tempo reale e creare pipeline di dati basate su eventi.

  • Job di query in batch. Con questi job, BigQuery mette in coda ogni query batch per tuo conto e poi avvia la query quando sono disponibili risorse inattive, in genere entro pochi minuti.

Puoi eseguire job di query utilizzando i seguenti metodi:

Query salvate e condivise

BigQuery ti consente di salvare le query e di condividerle con altri utenti.

Quando salvi una query, può essere privata (visibile solo a te), condivisa a livello di progetto (visibile a principianti specifici) o pubblica (visualizzabile da chiunque). Per ulteriori informazioni, vedi Utilizzare le query salvate.

Come BigQuery elabora le query

Quando BigQuery esegue una query, si verificano diversi processi:

  • Albero di esecuzione. Quando esegui una query, BigQuery genera un'albero di esecuzione che suddivide la query in fasi. Queste fasi contenere passaggi che possono essere eseguiti in parallelo.

  • Livello di riproduzione casuale. Le fasi comunicano tra loro tramite un livello shuffle distribuito in cui vengono archiviati i dati intermedi prodotti worker di una fase. Se possibile, il livello di shuffle sfrutta le tecnologie come una rete di petabyte e una RAM per spostare rapidamente i dati sui nodi worker.

  • Piano di query. Quando BigQuery dispone di tutte le informazioni quando deve eseguire una query, viene generato un piano di query. Puoi visualizzare questo piano nella console Google Cloud e utilizzarlo per risolvere i problemi o ottimizzare le prestazioni delle query.

  • Monitoraggio delle query e pianificazione dinamica. Oltre ai worker che eseguono il lavoro del piano di query stesso, altri worker monitorano e indirizzano l'avanzamento complessivo del lavoro in tutto il sistema. Man mano che la query procede, BigQuery può modificare in modo dinamico il piano di query per adattarsi i risultati delle varie fasi.

  • Risultati delle query. Al termine di una query, BigQuery scrive i risultati nello spazio di archiviazione permanente e li restituisce all'utente. Questo design consente a BigQuery di fornire i risultati memorizzati nella cache la volta successiva che viene eseguita la query.

Contemporaneità e prestazioni delle query

Le prestazioni delle query eseguite ripetutamente sugli stessi dati possono variare a causa natura condivisa dell'ambiente BigQuery BigQuery regola dinamicamente il piano di query durante l'esecuzione della query. Per un tipico sistema occupato in cui vengono eseguite molte query contemporaneamente, BigQuery utilizza diversi processi per livellare le variazioni nelle query rendimento:

  • BigQuery esegue molte query in parallelo, perciò raramente c'è una devono mettere in coda le query.

    Nei sistemi impegnati, le code sono una fonte importante di prestazioni meno prevedibili perché non è chiaro per quanto tempo una query potrebbe rimanere in coda. L'ora in cui una query è in coda può dipendere maggiormente da altre query in esecuzione o in in coda piuttosto che in base alle qualità della query stessa.

  • Quando le query iniziano e terminano, BigQuery ridistribuisce equamente le risorse tra le query nuove ed eseguite. Questa procedura garantisce che il rendimento delle query non dipenda dall'ordine in cui vengono inviate, ma dal numero di query eseguite in un determinato momento.

Ottimizzazione delle query

Al termine della query, puoi visualizza il piano di query nella console Google Cloud. Puoi anche richiedere i dettagli di esecuzione utilizzando le visualizzazioni INFORMATION_SCHEMA.JOBS* o il metodo dell'API REST jobs.get.

Il piano di query include dettagli sulle fasi e sui passaggi delle query. Questi dettagli possono ti aiutano a identificare modi per migliorare le prestazioni delle query. Ad esempio, se noti una fase che scrive molto più output rispetto ad altre fasi, potrebbe significare che devi applicare un filtro all'inizio della query.

Per ulteriori informazioni sul piano query e sull'ottimizzazione delle query, consulta le seguenti risorse:

Monitoraggio delle query

Il monitoraggio e il logging sono fondamentali per l'esecuzione di applicazioni affidabili nel cloud. I carichi di lavoro BigQuery non fanno eccezione, soprattutto se carico di lavoro ha volumi elevati o è mission critical. BigQuery fornisce varie metriche, log e visualizzazioni di metadati per aiutarti a monitorare Utilizzo di BigQuery.

Per maggiori informazioni, consulta le seguenti risorse:

Prezzi delle query

BigQuery offre due modelli di prezzi per l'analisi:

Per informazioni sui due modelli di determinazione dei prezzi e su come effettuare prenotazioni Per i prezzi basati sulla capacità, consulta Introduzione alle prenotazioni.

Quote e controllo dei costi delle query

BigQuery applica le quote a livello di progetto alle query in esecuzione. Per informazioni sulle quote di query, consulta Quote e limiti.

Per controllare i costi delle query, BigQuery offre diverse opzioni, incluse quote personalizzate e avvisi di fatturazione. Per ulteriori informazioni, vedi Creazione di controlli dei costi personalizzati.

Funzionalità di analisi dei dati

BigQuery supporta sia l'analisi descrittiva che l'analisi predittiva. A a interrogare direttamente i tuoi dati per rispondere ad alcune domande statistiche, puoi utilizzare nella console Google Cloud. Per esplorare visivamente i dati, ad esempio per tendenze e anomalie, puoi utilizzare strumenti come Tabella o Looker che si integrano con BigQuery.

BigQuery Studio

BigQuery Studio ti aiuta a scoprire, analizzare ed eseguire inferenze sui dati in BigQuery con le seguenti funzionalità:

Per utilizzare BigQuery Studio, segui le istruzioni riportate in Attivare BigQuery Studio per la gestione degli asset. Questa procedura abilita le seguenti API:

  • L'API Compute Engine: necessaria per eseguire funzioni Python nel progetto.
  • L'API Dataform: necessaria per archiviare asset di codice, ad esempio i file del notebook.
  • L'API Vertex AI: obbligatoria per eseguire i blocchi note Python di Colab Enterprise in BigQuery.

BigQuery ML

BigQuery ML consente di utilizzare SQL in BigQuery per eseguire analisi predittiva e di machine learning (ML). Per ulteriori informazioni, consulta Introduzione a BigQuery ML.

Integrazione degli strumenti di analisi

Oltre a eseguire query in BigQuery, puoi analizzare i tuoi dati con vari strumenti di analisi e business intelligence che si integrano con BigQuery, ad esempio:

  • Looker. Looker è una piattaforma aziendale business intelligence, applicazioni di dati e analisi incorporate. La piattaforma Looker è compatibile con molti datastore, tra cui BigQuery. Per informazioni su come connettersi da Looker a BigQuery, consulta Utilizzo di Looker.

  • Looker Studio. Dopo aver eseguito una query, puoi avviare Looker Studio direttamente da BigQuery nella console Google Cloud. Poi, in Looker Studio puoi creare ed esplorare i dati restituiti dalla query. Per informazioni su Looker Studio, consulta Panoramica di Looker Studio.

  • Fogli connessi. Puoi anche avviare Fogli connessi direttamente da BigQuery Google Cloud. Esecuzioni di Fogli connessi BigQuery esegue query per tuo conto su tua richiesta o una pianificazione definita. I risultati di queste query vengono salvati nel foglio di lavoro per l'analisi e la condivisione. Per informazioni su Fogli connessi, consulta Utilizzare Fogli connessi.

Integrazione di strumenti di terze parti

Diversi strumenti di analisi di terze parti funzionano con BigQuery. Ad esempio, puoi collegare Tableau ai dati di BigQuery e utilizzare i relativi strumenti di visualizzazione per analizzare e condividere la tua analisi. Per ulteriori informazioni sulle considerazioni da tenere presenti quando utilizzi strumenti di terze parti, consulta Integrazione di strumenti di terze parti.

I driver ODBC e JDBC sono disponibili e possono essere utilizzati per integrare la tua applicazione con BigQuery. Lo scopo di questi driver è aiutare gli utenti a sfruttare la potenza di BigQuery con gli strumenti e l'infrastruttura esistenti. Per informazioni sulla release più recente e sui problemi noti, vedi Driver ODBC e JDBC per BigQuery.

Le librerie Pandas come pandas-gbq ti consentono di interagire con Dati BigQuery nei blocchi note Jupyter. Per informazioni su questa libreria e sul suo confronto con l'utilizzo della libreria client Python di BigQuery, consulta Confronto con pandas-gbq.

Puoi anche utilizzare BigQuery con altri blocchi note e strumenti di analisi i nostri strumenti. Per ulteriori informazioni, vedi Strumenti di analisi programmatica.

Per un elenco completo delle analisi di BigQuery e della tecnologia più ampia partner, consulta le Partner nella pagina del prodotto BigQuery.

Passaggi successivi