Panoramica di BigQuery
BigQuery è una piattaforma di dati completamente gestita e predisposta per l'IA che ti aiuta a gestire e analizzare i dati con funzionalità integrate come machine learning, ricerca, analisi geospaziale e business intelligence. L'architettura serverless di BigQuery ti consente di utilizzare linguaggi come SQL e Python per rispondere alle domande più importanti della tua organizzazione senza il bisogno di gestire alcuna infrastruttura.
BigQuery offre un modo uniforme di lavorare con i container non strutturati e supporta formati di tabelle aperte come Apache Iceberg, Delta e Hudi. BigQuery streaming supporta l'importazione e l'analisi continua dei dati, mentre il motore di analisi distribuito e scalabile di BigQuery ti consente di eseguire query su terabyte in pochi secondi e su petabyte in pochi minuti.
L'architettura di BigQuery è composta da due parti: un livello di archiviazione che importa, archivia e ottimizza i dati e un livello di calcolo che fornisce funzionalità di analisi. Questi livelli di computing e archiviazione operano in modo efficiente indipendentemente l'una dall'altra grazie alla rete su scala ridotta di Google, consente la comunicazione necessaria.
In genere, i database legacy devono condividere le risorse tra lettura e scrittura operazioni e operazioni analitiche. Ciò può causare conflitti tra risorse possono rallentare le query durante la scrittura o la lettura dei dati nello spazio di archiviazione. I pool di risorse condivisi possono sottoporsi a ulteriori carichi di lavoro quando le risorse necessari per le attività di gestione dei database, come l'assegnazione o la revoca autorizzazioni aggiuntive. Separazione dei livelli di calcolo e archiviazione di BigQuery consente a ogni livello di allocare dinamicamente le risorse senza influire sulle prestazioni o la disponibilità dell'altro.
Questo principio di separazione consente a BigQuery di innovare più rapidamente il deployment dei miglioramenti dell'archiviazione e del calcolo può essere eseguito in modo indipendente, senza tempi di inattività o un impatto negativo sulle prestazioni del sistema. È inoltre essenziale offrire un data warehouse serverless completamente gestito in cui il team di ingegneri di BigQuery gestisce gli aggiornamenti e la manutenzione. Il risultato è che non eseguire il provisioning o scalare manualmente le risorse, lasciandoti libero di concentrarti offrendo valore invece delle attività tradizionali di gestione dei database.
Le interfacce BigQuery includono la console Google Cloud e lo strumento a riga di comando di BigQuery. Sviluppatori e i data scientist possono utilizzare le librerie client con una programmazione familiare, tra cui Python, Java, JavaScript e Go, nonché API REST e RPC per trasformare e gestire i dati. ODBC e i driver JDBC forniscono l'interazione con applicazioni esistenti, tra cui strumenti e utilità di terze parti.
Come analista di dati, data engineer, amministratore di data warehouse o scienziato, BigQuery ti aiuta a caricare, elaborare e analizzare i dati per decisioni aziendali critiche.
Inizia a utilizzare BigQuery
Puoi iniziare a esplorare BigQuery in pochi minuti. Sfrutta le Livello di utilizzo gratuito o sandbox senza costi di BigQuery per avviare il caricamento ed eseguire query sui dati.
- Sandbox di BigQuery: inizia a utilizzare la sandbox di BigQuery senza rischi e senza costi.
- Guida rapida alla console Google Cloud: familiarizza con la potenza della console BigQuery.
- Set di dati pubblici: prova le prestazioni di BigQuery esplorando dati di grandi dimensioni e reali del programma per i set di dati pubblici.
Esplora BigQuery
L'infrastruttura serverless di BigQuery ti consente di concentrarti sui dati anziché sulla gestione delle risorse. BigQuery combina un data warehouse basato su cloud e potenti strumenti di analisi.
Spazio di archiviazione BigQuery
BigQuery archivia i dati utilizzando un formato di archiviazione a colonne ottimizzato per le query di analisi. BigQuery presenta i dati in tabelle, righe e colonne e fornisce il supporto completo per la semantica delle transazioni del database (ACID). Lo spazio di archiviazione BigQuery viene replicato automaticamente in più località per garantire un'alta disponibilità.
- Scopri i pattern comuni per organizzare le risorse BigQuery nel data warehouse e nei data mart.
- Ulteriori informazioni su set di dati, BigQuery di primo livello un container di tabelle e viste.
- Carica i dati in BigQuery utilizzando:
- Esegui lo streaming dei dati con l'API Storage Write.
- Caricare i dati in batch da file locali o Cloud Storage utilizzando formati che includono: Avro Parquet ORC, CSV, JSON, Datastore, e Firestore formati.
- BigQuery Data Transfer Service automatizza l'importazione dei dati.
Per ulteriori informazioni, consulta la Panoramica dello spazio di archiviazione BigQuery.
Analisi di BigQuery
Gli utilizzi dell'analisi descrittiva e prescrittiva includono business intelligence, ad hoc analisi geospaziali, machine learning e machine learning. Puoi eseguire query sui dati archiviati in BigQuery o eseguire query sui dati nella posizione in cui si trovano utilizzando tabelle esterne o query federate, tra cui Cloud Storage, Bigtable, Spanner o Fogli Google archiviati in Google Drive.
- Query SQL standard ANSI (supporto per SQL:2011) tra cui il supporto per join, campi nidificati e ripetuti, analisi e funzioni di aggregazione, query con più istruzioni e una serie funzioni spaziali con analisi geospaziali: sistemi di informazione geografica.
- Crea visualizzazioni per condividere la tua analisi.
- Supporto degli strumenti di business intelligence, tra cui BI Engine con Looker Studio, Looker, Fogli Google e strumenti di terze parti come Tableau e Power BI.
- BigQuery ML fornisce machine learning e analisi predittiva.
- BigQuery Studio offre funzionalità come i notebook Python e il controllo della versione sia per i notebook sia per le query salvate. Queste funzionalità ti consentono di completare più facilmente i flussi di lavoro di analisi dei dati e di machine learning (ML) in BigQuery.
- Esegui query sui dati al di fuori di BigQuery con tabelle esterne e query federate.
Per ulteriori informazioni, consulta la panoramica di BigQuery Analytics.
Amministrazione di BigQuery
BigQuery offre la gestione centralizzata di dati e computing mentre le risorse Identity and Access Management (IAM) ti aiuta a proteggere queste risorse con il modello di accesso usato in Google Cloud. Best practice per la sicurezza di Google Cloud offrono un approccio solido ma flessibile che può includere più complessi e granulari approccio alla difesa in profondità.
- Introduzione alla sicurezza e alla governance dei dati ti aiuta a comprendere la governance dei dati e i controlli di cui potresti aver bisogno la sicurezza delle risorse BigQuery.
- I job sono azioni BigQuery viene eseguito per tuo conto per caricare, esportare, eseguire query o copiare e i dati di Google Cloud.
- Le prenotazioni ti consentono di passare da una prezzi on demand e prezzi basati sulla capacità.
Per ulteriori informazioni, consulta Introduzione all'amministrazione di BigQuery.
Risorse di BigQuery
Esplora le risorse BigQuery:
- Le note di rilascio forniscono i log delle modifiche funzionalità, modifiche e ritiri.
Prezzi per l'analisi archiviazione. Vedi anche: BigQuery ML, BI Engine e Data Transfer Service i prezzi.
Le località definiscono dove crei e archivi (località a singola regione e a più regioni).
Impilare Host di overflow una community coinvolta di sviluppatori e analisti che lavorano in BigQuery.
L'assistenza BigQuery fornisce assistenza per BigQuery.
Google BigQuery: The Definitive Guide: Data Warehousing, Analytics, and Machine Learning at Scale di Valliappa Lakshmanan e Jordan Tigani, spiega come funziona BigQuery e fornisce una procedura dettagliata end-to-end su come utilizzare il servizio.
API, strumenti e riferimenti
Materiali di riferimento per sviluppatori e analisti di BigQuery:
- Sintassi delle query SQL per e i dettagli sull'uso di GoogleSQL.
- API BigQuery e le librerie client presentano panoramiche le funzionalità di BigQuery e il loro utilizzo.
- Gli esempi di codice BigQuery forniscono centinaia di snippet per le librerie client in C#, Go, Java, Node.js, Python, Ruby. Oppure visualizza il browser di esempio.
- DML DDL, e funzioni definite dall'utente consente di gestire e trasformare i dati di BigQuery.
- Riferimento per lo strumento a riga di comando bq
documenta la sintassi, i comandi, i flag e gli argomenti per l'interfaccia dell'interfaccia a riga di comando di
bq
. - L'integrazione ODBC/JDBC consente di collegare BigQuery agli strumenti e all'infrastruttura esistenti.
Ruoli e risorse di BigQuery
BigQuery risponde alle esigenze dei professionisti dei dati in i seguenti ruoli e responsabilità.
Analista di dati
Indicazioni per le attività utili se devi:
- Eseguire query sui dati BigQuery utilizzando query interattive o batch con la sintassi delle query SQL
- Fai riferimento alle funzioni, agli operatori e alle espressioni condizionali SQL per eseguire query sui dati
Utilizzare gli strumenti per analizzare e visualizzare i dati di BigQuery tra cui: Looker, Looker Studio e Fogli Google.
Utilizza l'analisi geospaziale per analizzare e visualizzare i dati geospaziali con i sistemi GIS (Geographic Information Systems) di BigQuery
Ottimizzare le prestazioni delle query con:
- Tabelle partizionate: elimina le tabelle di grandi dimensioni in base a intervalli di tempo o interi.
- Viste materializzate: definisci le viste memorizzate nella cache per ottimizzare le query o fornire risultati permanenti.
- BI Engine: Il rapido servizio di analisi in memoria di BigQuery.
Per fare un tour delle funzionalità di analisi dei dati di BigQuery direttamente nella console Google Cloud, fai clic su Fai il tour.
Amministratore dati
Indicazioni per le attività utili se devi:
- Gestisci i costi con le prenotazioni per bilanciare i prezzi on demand e basati sulla capacità.
- Scopri la sicurezza e la governance dei dati per proteggere i dati in base a set di dati, tabella, colonna, riga o visualizzazione
- Eseguire il backup dei dati con snapshot delle tabelle per conservare i contenuti di una tabella in un determinato momento.
- Visualizza INFORMATION_SCHEMA di BigQuery per comprendere i metadati dei set di dati, jobs, controllo dell'accesso, prenotazioni, tabelle e altro.
- Utilizza i job per avere BigQuery caricare, esportare, eseguire query o copiare dati sono azioni eseguite per tuo conto.
- Monitora i log e le risorse per comprendere BigQuery e i carichi di lavoro.
Per ulteriori informazioni, consulta Introduzione a BigQuery Google Cloud.
Per fare un tour delle funzionalità di amministrazione dei dati di BigQuery direttamente nella console Google Cloud, fai clic su Inizia il tour.
Data scientist
Linee guida per le attività utili se hai bisogno di usare la macchina di BigQuery ML imparare a svolgere seguenti:
- Comprendere il percorso end-to-end dell'utente per i modelli di machine learning
- Gestire il controllo dell'accesso per BigQuery ML
- Creare e addestrare un modello BigQuery ML
tra cui:
- Previsione con regressione lineare
- Classificazioni di regressione logistica binaria e logistica multiclasse
- Clustering K-means per la segmentazione dei dati
- Previsione delle serie temporali con i modelli ARIMA+
Data Developer
Indicazioni sulle attività per aiutarti se devi svolgere le seguenti operazioni:
- Caricare dati in BigQuery
con:
- Caricare i dati in batch per i formati Avro, Parquet, ORC, CSV, JSON, Datastore e Firestore.
- BigQuery Data Transfer Service
- API BigQuery Storage Write
Utilizza la libreria di esempi di codice, che include:
Browser di esempio Google Cloud (con ambito BigQuery)
Tutorial video su BigQuery
La seguente serie di tutorial video ti aiuta a iniziare a utilizzare BigQuery:
Titolo |
Descrizione |
---|---|
Come iniziare a utilizzare BigQuery (17:18) | Una panoramica che riassume che cos'è BigQuery e come usarlo. I segmenti includono: pipeline ETL, prezzi e ottimizzazione, BigQuery ML e BI Engine e una demo di BigQuery nella console Google Cloud. |
Che cos'è BigQuery? (4:39) | Una panoramica di BigQuery su come funziona progettato per importare e archiviare grandi quantità di dati per aiutare gli analisti e sviluppatori |
Utilizzare la sandbox di BigQuery (3:05) | Come configurare una sandbox di BigQuery per eseguire query senza bisogno di una carta di credito |
Porre domande query in esecuzione (5:11) | Scrivere ed eseguire query SQL nella UI di BigQuery, oltre scegliere un numero di maglia vincente |
Caricamento di dati in BigQuery (5:31) | Come importare e analizzare i dati in tempo reale o solo un'analisi in batch una tantum dei dati, oltre a gatti e cani |
Visualizzazione della query risultati (5:38) | In che modo la visualizzazione dei dati è utile per comprendere e interiorizzare più facilmente i set di dati complessi |
Gestire l'accesso con IAM (5:23) | Come consentire ad altri utenti di eseguire query sui tuoi set di dati in BigQuery con le autorizzazioni IAM e il controllo dell'accesso |
Risparmio e condivisione di query (6:17) | Come salvare e condividere le query in BigQuery agevole |
Protezione dei dati sensibili dati con viste autorizzate (7:12) | Come condividere facilmente set di dati con utenti diversi impostando controlli di accesso personalizzati |
Esecuzione di query esterne dati con BigQuery (5:49) | Configurare un'origine dati esterna in BigQuery ed eseguire query dati da Cloud Storage, Cloud SQL, Google Drive e altri |
Che cosa sono le funzioni definite dall'utente? (04:59) | Come creare funzioni definite dall'utente (UDF) per analizzare i set di dati in BigQuery |
Passaggi successivi
- Per una panoramica dello spazio di archiviazione di BigQuery, consulta Panoramica dello spazio di archiviazione di BigQuery.
- Per una panoramica delle query BigQuery, vedi Panoramica dell'analisi di BigQuery.
- Per una panoramica dell'amministrazione di BigQuery, consulta Introduzione all'amministrazione di BigQuery.
- Per una panoramica della sicurezza di BigQuery, consulta Panoramica della sicurezza e della governance dei dati.