Introduzione all'amministrazione di BigQuery

Questo documento offre un'introduzione alle attività di amministrazione di BigQuery e le funzionalità di BigQuery che ti consentono di realizzarle.

In genere gli amministratori di BigQuery eseguono le seguenti attività:

  • Gestire risorse come progetti, set di dati e tabelle.
  • Risorse sicure, per limitare l'accesso alle entità che ne hanno bisogno.
  • Gestire i carichi di lavoro, ad esempio job, query e capacità di calcolo (prenotazioni).
  • Monitora le risorse, inclusi quote, job e utilizzo dei calcoli.
  • Ottimizza i carichi di lavoro per prestazioni ottimali controllando i costi.
  • Risolvere i messaggi di errore, i problemi di fatturazione e le quote.

Questo documento offre una panoramica delle funzionalità fornite da BigQuery per aiutarti a eseguire queste attività.

Strumenti

BigQuery offre diverse interfacce che puoi utilizzare per le attività di amministrazione. Spesso una determinata attività può essere eseguita con più strumenti, consentendoti di scegliere quello più adatto alle tue esigenze. Ad esempio, puoi creare una tabella utilizzando il riquadro Explorer nella console Google Cloud, un comando bq mk --table o un'istruzione SQL CREATE TABLE.

  • Google Cloud Console. La console Google Cloud contiene diverse pagine dedicate all'amministrazione di BigQuery. Per ulteriori informazioni, consulta la pagina Utilizzare Google Cloud Console.
  • Istruzioni SQL. La pagina BigQuery in Google Cloud Console ha un editor di query in cui puoi eseguire attività amministrative utilizzando le istruzioni DDL e DCL. Per ulteriori informazioni, vedi Lingua di definizione dei dati (DDL) e Lingua di controllo dei dati (DCL).

    Puoi utilizzare le stored procedure per automatizzare le attività di amministrazione che utilizzano istruzioni SQL. Per ulteriori informazioni, consulta l'articolo Utilizzo delle stored procedure.

  • Comandi bq. Lo strumento a riga di comando bq consente di eseguire molte attività amministrative utilizzando i comandi bq. Puoi utilizzare lo strumento a riga di comando bq per svolgere attività non supportate nella console Google Cloud, per realizzare un prototipo di funzionalità prima di codificarlo in query o metodi API oppure se preferisci lavorare in un'interfaccia a riga di comando. Per ulteriori informazioni, consulta la pagina relativa all'utilizzo dello strumento a riga di comando bq.

Gestione risorse

Le risorse BigQuery includono organizzazioni, cartelle, progetti, set di dati e tabelle. Questa sezione descrive come gestire le risorse dell'organizzazione.

Per informazioni sulla gerarchia delle risorse di BigQuery, vedi Organizzare le risorse di BigQuery. In particolare, puoi creare una risorsa Organizzazione, che ti consente di eseguire alcune attività, come impostare i controlli di accesso, a livello di organizzazione.

Gestione dei set di dati

I set di dati sono container per le tabelle. Puoi creare tabelle in un set di dati e poi gestirle come gruppo. Ad esempio, puoi configurare la data di scadenza della tabella predefinita di un set di dati, che viene applicata a tutte le tabelle nel set di dati, a meno che tu non ne esegua l'override. Per copiare un gruppo di tabelle, puoi creare una copia del set di dati e controllare l'accesso alle tabelle a livello di set di dati.

Per ulteriori informazioni sull'amministrazione dei set di dati, consulta i seguenti documenti:

Gestisci tabelle

In BigQuery, i dati vengono archiviati in tabelle, dove è possibile eseguire query. Puoi creare tabelle, caricare dati in tabelle da vari tipi di origini e in vari formati, partizioni basate su una colonna specifica o per ora di importazione, tabelle cluster, aggiornamento delle proprietà della tabella ed esportazione dei dati della tabella.

Per ulteriori informazioni sull'amministrazione delle tabelle, consulta i seguenti documenti:

Etichetta le risorse

Per facilitare l'organizzazione delle risorse BigQuery, puoi aggiungere etichette ai set di dati, alle tabelle e alle viste. Le etichette sono coppie chiave-valore che puoi collegare a una risorsa. Dopo aver etichettato le risorse, puoi cercarle in base ai valori delle etichette. Ad esempio, puoi utilizzare le etichette per raggruppare i set di dati in base al reparto aggiungendo etichette come dept:sales, dept:marketing, dept:analytics ecc. Dopodiché puoi suddividere gli addebiti fatturati per reparto utilizzando le etichette.

Per scoprire di più, consulta Introduzione alle etichette.

Recupero metadati risorsa

Per ottenere informazioni sulle risorse BigQuery, esegui una query sulla tabella INFORMATION_SCHEMA. BigQuery offre una vista su questa tabella per ogni tipo di risorsa. La visualizzazione contiene metadati per la risorsa; ad esempio, la vista INFORMATION_SCHEMA.TABLES contiene metadati di tabella.

BigQuery offre una visualizzazione di INFORMATION_SCHEMA per ciascuno dei seguenti tipi di risorse:

Di seguito sono riportati alcuni esempi di informazioni che puoi ottenere eseguendo una query su INFORMATION_SCHEMA visualizzazioni:

  • Scopri quando è stata creata una tabella.
  • Recupera i nomi e i tipi di dati di ciascuna colonna di una tabella.
  • Trova tutti i job attualmente in esecuzione in un progetto.
  • Recupero di un elenco degli snapshot tabella creati da una tabella di base.
  • Per un set di dati, una tabella, una visualizzazione o una routine, recupera l'istruzione DDL che può essere utilizzata per creare la risorsa.
  • Visualizza le opzioni che sono state utilizzate per creare una tabella (ad esempio, la scadenza della tabella).
  • Trova le colonne di partizionamento e clustering in una tabella.
  • Ottieni una prenotazione attualmente assegnata a un progetto e la sua capacità slot.

Per ulteriori informazioni, consulta la pagina Introduzione a BigQuery INFORMATION_SCHEMA.

Copiare dati

Potresti creare copie dei tuoi dati per vari motivi, come la protezione da errori umani, oppure per conservare i dati per un confronto in futuro. BigQuery offre diverse opzioni per copiare i dati di una tabella da un determinato momento.

  • Viaggio nel tempo. Potrebbe essere necessario accedere allo stato di una tabella come era nell'ultima settimana, ad esempio se i dati si danneggiavano a causa di un errore umano. BigQuery conserva i dati storici delle tue tabelle per sette giorni. Puoi accedere ai dati storici recenti di una tabella utilizzando la funzionalità di viaggio nel tempo.

    Per ulteriori informazioni, consulta la pagina Accedere ai dati storici utilizzando i viaggi nel tempo.

  • Istantanea tabella. Se vuoi avere accesso allo stato di una tabella da una settimana precedente, puoi creare periodicamente istantanea della tabella. Gli snapshot delle tabelle sono copie leggere di sola lettura che ti consentono di preservare lo stato delle tabelle a tempo indeterminato. Con gli snapshot delle tabelle, ad esempio, puoi confrontare i dati attuali di una tabella con i dati relativi all'inizio dell'anno. Ciò non è possibile utilizzando i viaggi nel tempo. Ti viene addebitato solo l'archiviazione dei dati che differiscono tra la tabella di base e lo snapshot della tabella.

    Per ulteriori informazioni, consulta la pagina Introduzione agli snapshot delle tabelle.

  • cloni delle tabelle (Anteprima). Se vuoi creare una copia leggera e modificabile di una tabella, puoi utilizzare i cloni delle tabelle. Paghi solo per l'archiviazione dei dati che differiscono tra una tabella di base e il relativo clone. Ad esempio, puoi creare cloni delle tabelle in un ambiente di test per poter sperimentare con copie di dati di produzione senza influire sui dati di produzione e senza dover pagare per l'archiviazione di copie complete delle tabelle.

    Per ulteriori informazioni, consulta la pagina Introduzione ai cloni delle tabelle.

Risorse sicure

La sicurezza di BigQuery si basa su Google Cloud Identity and Access Management. BigQuery consente di controllare l'accesso alle risorse a più livelli, tra cui l'accesso all'organizzazione, alle cartelle, ai progetti, ai set di dati, alle tabelle, alle colonne e alle righe delle tabelle.

Per informazioni sul controllo dell'accesso alle risorse BigQuery, consulta Panoramica della sicurezza e della governance dei dati.

Gestisci carichi di lavoro

BigQuery esegue molte attività per conto dei tuoi utenti, incluse l'importazione, l'esecuzione di query e l'esportazione di dati. Ogni attività viene eseguita da un job BigQuery. Questa sezione descrive come monitorare e gestire i lavori della tua organizzazione.

Gestisci le opportunità di lavoro

I job sono azioni che BigQuery esegue per conto di un utente al fine di caricare, esportare, eseguire query o copiare dati. Quando un utente avvia una di queste attività utilizzando la console Google Cloud, lo strumento a riga di comando bq, un'istruzione SQL o una chiamata API, BigQuery crea automaticamente un job per eseguire l'attività.

In qualità di amministratore di BigQuery, puoi monitorare, gestire e risolvere i problemi dei job della tua organizzazione per assicurarti che vengano eseguiti correttamente.

Per scoprire di più, consulta la panoramica dei job.

Gestire le prenotazioni

Quando BigQuery esegue le query, utilizza unità di calcolo chiamate slot. BigQuery calcola il numero di slot necessari per eseguire ogni query, a seconda delle dimensioni e della complessità della query.

BigQuery prevede due modelli di prezzi per l'addebito degli slot che eseguono le tue query:

  • Fatturazione on demand. Le query utilizzano un pool condiviso di slot e ti viene addebitato il numero di byte elaborati per le query.
  • Fatturazione a costo fisso. Puoi acquistare una capacità dedicata per eseguire le query e ti viene addebitato un prezzo fisso per le aree dedicate.

Questi modelli di prezzo si applicano per progetto, quindi puoi avere alcuni progetti che utilizzano la fatturazione on demand e altri che utilizzano la fatturazione a costo fisso.

Con la fatturazione on demand, dopo aver utilizzato l'allocazione mensile dell'utilizzo gratuito, ti viene addebitato il numero di byte elaborati da ogni query. La velocità effettiva è limitata a una quota di slot predefinita, che viene condivisa tra le query in esecuzione in un progetto.

Con la fatturazione a costo fisso acquisti spazi per la tua organizzazione, che ti offre una capacità di elaborazione delle query dedicata. Quindi, assegni i pool di tali slot dedicati ai singoli progetti della tua organizzazione. Le query eseguite in un progetto condividono gli slot dedicati del progetto. L'addebito avviene in base al numero di slot acquistati, anziché al numero di byte elaborati.

Per ulteriori informazioni sulla gestione della capacità di calcolo per l'elaborazione delle query, consulta i seguenti documenti:

Monitora le risorse

Google Cloud fornisce la capacità di monitorare e controllare le tue risorse, comprese le risorse di BigQuery. Questa sezione descrive le funzionalità di monitoraggio e controllo di Google Cloud che si applicano a BigQuery.

Per ulteriori informazioni, consulta la pagina Introduzione al monitoraggio di BigQuery.

La dashboard di Cloud Monitoring

Cloud Monitoring fornisce una dashboard per il monitoraggio di BigQuery. Utilizza questa dashboard per visualizzare informazioni su incidenti, set di dati, tabelle, progetti, tempi delle query e utilizzo degli slot di BigQuery.

Per ulteriori informazioni, consulta la pagina relativa alla visualizzazione della dashboard di Monitoring.

Grafici e avvisi di amministrazione

Puoi utilizzare Cloud Monitoring per creare grafici personalizzati basati sulle risorse, sulle metriche e su qualsiasi aggregazione specificata.

Per ulteriori informazioni, consulta Dashboard e grafici.

Puoi anche creare criteri di avviso che ti informano se viene attivato l'avviso configurato. Ad esempio, potresti creare un avviso che invia un'email a un indirizzo email specificato se il tempo di esecuzione di una query supera un limite specificato.

Per ulteriori informazioni, consulta la sezione Creazione di un avviso.

Monitora le prenotazioni

Puoi monitorare l'utilizzo degli slot nella pagina Gestione della capacità di Google Cloud Console. Puoi visualizzare gli impegni per la capacità e scoprire dove sono state assegnate le prenotazioni di slot. Puoi anche utilizzare lo Strumento di stima degli slot (anteprima) per stimare i requisiti della capacità della tua organizzazione in base alle metriche storiche relative alle prestazioni.

Per ulteriori informazioni, consulta la pagina Monitoraggio delle prenotazioni BigQuery.

Quote

Google Cloud fissa limiti sull'uso delle risorse, tra cui le risorse BigQuery, sia per garantire un fair use delle risorse condivise, sia per proteggerti da costi incontrollati. Puoi visualizzare l'utilizzo delle risorse BigQuery con quote e richiedere una quota più alta, se necessario, tramite la console Google Cloud.

Per ulteriori informazioni, consulta Quote e limiti di BigQuery.

Audit log

Gli audit log di Cloud mantengono un record degli eventi Google Cloud, inclusi gli eventi BigQuery. Puoi utilizzare Esplora log per eseguire query sui log relativi a eventi relativi a job, set di dati, trasferimenti e altro di BigQuery. Nella Dashboard dei log vengono visualizzate informazioni sugli errori recenti e puoi utilizzare le metriche basate su log per conteggiare le voci di log corrispondenti a un determinato filtro.

Per ulteriori informazioni, consulta la documentazione del logging di Google Cloud.

Ottimizza i carichi di lavoro

Puoi ottimizzare la configurazione di BigQuery per controllare i costi di archiviazione ed elaborazione delle query.

Indicazioni per l'affidabilità

Questa guida illustra l'affidabilità di BigQuery. Ogni documento esplora un aspetto critico dell'affidabilità con un caso d'uso dell'implementazione di BigQuery. Gli argomenti che includono affidabilità includono:

  • Panoramica delle funzionalità di affidabilità: approfondimento su disponibilità, durabilità, coerenza dei dati, coerenza delle prestazioni e recupero dei dati in BigQuery, nonché revisione delle considerazioni sulla gestione degli errori.
  • Importazione dei dati: analisi approfondita di come si applicano queste dimensioni di affidabilità all'importazione dei dati nel sistema di archiviazione gestito in BigQuery.
  • Esecuzione di query sui dati: come eseguire query affidabili sui dati nel tuo ambiente BigQuery.
  • Lettura dei dati - Come si applica l'affidabilità alla lettura dei dati dal sistema di archiviazione gestito di BigQuery.
  • Ripristino di emergenza: guasti specifici della perdita di una singola macchina fino alla perdita catastrofica di un'area geografica.

Risoluzione dei problemi

Oltre alle funzionalità descritte in questo documento per il monitoraggio e la gestione del sistema BigQuery della tua organizzazione, sono disponibili le seguenti risorse per la risoluzione dei problemi che potrebbero sorgere:

Se hai bisogno di ulteriore assistenza, consulta la pagina relativa all'assistenza.

Passaggi successivi