Organizzazione delle risorse BigQuery

Come altri servizi Google Cloud, le risorse di BigQuery sono organizzate in una gerarchia. Puoi utilizzare questa gerarchia per gestire aspetti dei carichi di lavoro BigQuery come autorizzazioni, quote, prenotazioni di slot e fatturazione.

Gerarchia delle risorse

BigQuery eredita la gerarchia delle risorse di Google Cloud e aggiunge un ulteriore meccanismo di raggruppamento chiamato set di dati, che sono specifici di BigQuery. Questa sezione descrive gli elementi di questa gerarchia.

Set di dati

I set di dati sono container logici utilizzati per organizzare e controllare l'accesso alle risorse BigQuery. I set di dati sono simili agli schemi di altri sistemi di database.

La maggior parte delle risorse BigQuery che crei, incluse tabelle, viste, funzioni e procedure, viene creata all'interno di un set di dati. Le connessioni e i job sono eccezioni e sono associate a progetti anziché a set di dati.

Un set di dati ha una località. Quando crei una tabella, i dati della tabella vengono archiviati nella località del set di dati. Prima di creare tabelle per i dati di produzione, pensa ai requisiti di località. Non puoi modificare la località di un set di dati dopo averlo creato.

Progetti

Ogni set di dati è associato a un progetto. Per usare Google Cloud, devi creare almeno un progetto. I progetti sono la base per creare, abilitare e utilizzare tutti i servizi Google Cloud. Per ulteriori informazioni, consulta Gerarchia delle risorse. Un progetto può contenere più set di dati e nello stesso progetto possono esistere set di dati con località diverse.

Quando esegui operazioni sui dati BigQuery, ad esempio l'esecuzione di una query o l'importazione di dati in una tabella, viene creato un job. Un job è sempre associato a un progetto, ma non deve essere eseguito nello stesso progetto che contiene i dati. In effetti, un job potrebbe fare riferimento a tabelle di set di dati in più progetti. Un job di query, di caricamento o di esportazione viene sempre eseguito nella stessa località delle tabelle a cui fa riferimento.

A ogni progetto è collegato un account di fatturazione Cloud. I costi accumulati per un progetto vengono fatturati a tale account. Se utilizzi prezzi on demand, le query vengono fatturate al progetto che la esegue. Se utilizzi prezzi basati sulla capacità, le prenotazioni di slot vengono fatturate al progetto di amministrazione utilizzato per l'acquisto degli slot. L'archiviazione viene addebitata al progetto in cui si trova il set di dati.

Cartelle

Le cartelle sono un ulteriore meccanismo di raggruppamento sopra i progetti. I progetti e le cartelle all'interno di una cartella ereditano automaticamente i criteri di accesso della cartella padre. Le cartelle possono essere usate per modellare diverse persone giuridiche, dipartimenti e team all'interno di un'azienda.

Organizzazioni

La risorsa Organizzazione rappresenta un'organizzazione (ad esempio un'azienda) ed è il nodo radice nella gerarchia delle risorse Google Cloud.

Non è necessaria una risorsa organizzazione per iniziare a utilizzare BigQuery, ma ti consigliamo di crearne una. L'utilizzo di una risorsa organizzazione consente agli amministratori di controllare centralmente le risorse BigQuery, anziché che i singoli utenti controllino le risorse che creano.

Il seguente diagramma mostra un esempio della gerarchia delle risorse. In questo esempio, l'organizzazione ha un progetto all'interno di una cartella. Il progetto è associato a un account di fatturazione e contiene tre set di dati.

Gerarchia delle risorse

Considerazioni

Quando scegli come organizzare le risorse BigQuery, considera i seguenti punti:

  • Quote. Molte quotas BigQuery vengono applicate a livello di progetto. Alcuni si applicano a livello di set di dati. Le quote a livello di progetto che riguardano le risorse di calcolo, come query e job di caricamento, vengono conteggiate a fronte del progetto che crea il job, anziché del progetto di archiviazione.
  • Fatturazione. Se vuoi che reparti diversi della tua organizzazione utilizzino account di fatturazione Cloud diversi, crea progetti diversi per ogni team. Creare gli account di fatturazione Cloud a livello di organizzazione e associare i progetti.
  • Prenotazioni di slot. Gli slot riservati hanno come ambito la risorsa Organizzazione. Dopo aver acquistato una capacità di slot riservata, puoi assegnare un pool di slot a qualsiasi progetto o cartella all'interno dell'organizzazione oppure assegnare slot all'intera risorsa organizzazione. I progetti ereditano le prenotazioni degli slot dalla cartella principale o dall'organizzazione. Gli slot riservati sono associati a un progetto di amministrazione, utilizzato per gestire gli slot. Per ulteriori informazioni, consulta Gestione dei carichi di lavoro con le prenotazioni.
  • Autorizzazioni. Valuta in che modo la gerarchia delle autorizzazioni influisce sulle persone della tua organizzazione che devono accedere ai dati. Ad esempio, se vuoi concedere a un intero team l'accesso a dati specifici, puoi archiviare i dati in un unico progetto per semplificare la gestione degli accessi.

    Le tabelle e le altre entità ereditano le autorizzazioni del set di dati padre. I set di dati ereditano le autorizzazioni dalle entità padre nella gerarchia delle risorse (progetti, cartelle, organizzazioni). Per eseguire un'operazione su una risorsa, un utente deve disporre delle autorizzazioni pertinenti per la risorsa e dell'autorizzazione per creare un job BigQuery. L'autorizzazione per creare un job è associata al progetto utilizzato per quel job.

Modelli

Questa sezione presenta due pattern comuni per organizzare le risorse BigQuery.

  • Data lake centrale, data mart di reparto. L'organizzazione crea un progetto di archiviazione unificato per conservare i dati non elaborati. I reparti all'interno dell'organizzazione creano i propri progetti Data mart per l'analisi.

  • Data lake di reparti, data warehouse centrale. Ogni reparto crea e gestisce il proprio progetto di archiviazione per conservare i dati non elaborati di quel reparto. L'organizzazione crea quindi un progetto di data warehouse centrale per l'analisi.

Ciascun approccio presenta vantaggi e compromessi. Molte organizzazioni combinano gli elementi di entrambi i modelli.

Data lake centrale, data mart di reparto

In questo modello, creerai un progetto di archiviazione unificato per conservare i dati non elaborati dell'organizzazione. Anche la pipeline di importazione dati può essere eseguita in questo progetto. Il progetto di archiviazione unificato agisce come un data lake per la tua organizzazione.

Ogni reparto ha un proprio progetto dedicato che utilizza per eseguire query sui dati, salvare i risultati delle query e creare viste. Questi progetti a livello di reparto fungono da data mart. Sono associate all'account di fatturazione del reparto.

Pattern del data lake centrale

I vantaggi di questa struttura includono:

  • Un team di data engineering centralizzato può gestire la pipeline di importazione in un unico posto.
  • I dati non elaborati vengono isolati dai progetti a livello di reparto.
  • Con i prezzi on demand, la fatturazione per le query in esecuzione viene addebitata al reparto che esegue la query.
  • Con i prezzi basati sulla capacità, puoi assegnare slot a ciascun reparto in base ai requisiti di calcolo previsti.
  • Ogni reparto è isolato dagli altri in termini di quote a livello di progetto.

Quando utilizzi questa struttura, le seguenti autorizzazioni sono tipiche:

  • Al team centrale di data engineering vengono assegnati i ruoli Editor dati BigQuery e Utente job BigQuery per il progetto di archiviazione. che consentono di importare e modificare i dati nel progetto di archiviazione.
  • Agli analisti del reparto viene concesso il ruolo Visualizzatore dati BigQuery per set di dati specifici nel progetto del data lake centrale. Ciò consente loro di eseguire query sui dati, ma non di aggiornare o eliminare i dati non elaborati.
  • Agli analisti di reparto vengono inoltre assegnati i ruoli Editor dati BigQuery e Utente job per il progetto Data mart del loro dipartimento. Ciò consente loro di creare e aggiornare tabelle nel progetto ed eseguire job di query, per trasformare e aggregare i dati per l'utilizzo specifico del reparto.

Per ulteriori informazioni, consulta Autorizzazioni e ruoli di base.

Data lake di reparto, data warehouse centrale

In questo modello, ogni reparto crea e gestisce il proprio progetto di archiviazione, che contiene i dati non elaborati di quel reparto. Un progetto di data warehouse centrale archivia le aggregazioni o le trasformazioni dei dati non elaborati.

Gli analisti possono eseguire query e leggere i dati aggregati del progetto di data warehouse. Il progetto di data warehouse fornisce anche un livello di accesso per gli strumenti di business intelligence (BI).

Modello data lake dei dipartimenti

I vantaggi di questa struttura includono:

  • È più semplice gestire l'accesso ai dati a livello di reparto, utilizzando progetti separati per ogni reparto.
  • Un team di analisi centrale ha un unico progetto per l'esecuzione di job di analisi, che semplifica il monitoraggio delle query.
  • Gli utenti possono accedere ai dati da uno strumento BI centralizzato, che viene mantenuto isolato dai dati non elaborati.
  • È possibile assegnare slot al progetto di data warehouse per gestire tutte le query da analisti e strumenti esterni.

Quando utilizzi questa struttura, le seguenti autorizzazioni sono tipiche:

  • Ai data engineer vengono assegnati i ruoli Editor dati BigQuery e Utente job BigQuery nel data mart del loro reparto. Questi ruoli consentono di importare e trasformare i dati nel data mart.
  • Agli analisti vengono assegnati i ruoli Editor dati BigQuery e Utente job BigQuery nel progetto data warehouse. Questi ruoli consentono di creare viste aggregate nel data warehouse ed eseguire job di query.
  • Agli account di servizio che collegano BigQuery agli strumenti BI viene concesso il ruolo Visualizzatore dati BigQuery per set di dati specifici, che possono contenere dati non elaborati del data lake o dati trasformati nel progetto di data warehouse.

Per ulteriori informazioni, consulta Autorizzazioni e ruoli di base.

Puoi anche utilizzare funzionalità di sicurezza come le visualizzazioni autorizzate e le funzioni definite dall'utente autorizzate per rendere disponibili i dati aggregati a determinati utenti senza concedere loro l'autorizzazione a visualizzare i dati non elaborati nei progetti Data mart.

Questa struttura di progetto può comportare molte query in parallelo nel progetto di data warehouse. Di conseguenza, potresti raggiungere il limite di query simultanee. Se adotti questa struttura, valuta la possibilità di aumentare questo limite di quota per il progetto. Valuta inoltre la possibilità di utilizzare la fatturazione basata sulla capacità, in modo da poter acquistare un pool di slot per eseguire le query.