Organizzazione delle risorse BigQuery

Come gli altri servizi Google Cloud, le risorse BigQuery sono organizzate in un nella gerarchia. Puoi utilizzare questa gerarchia per gestire aspetti del tuo Carichi di lavoro BigQuery come autorizzazioni, quote, slot prenotazioni e fatturazione.

Gerarchia delle risorse

BigQuery eredita Gerarchia delle risorse di Google Cloud e aggiunge un ulteriore meccanismo di raggruppamento chiamato set di dati, che è specifico in BigQuery. In questa sezione vengono descritti gli elementi del nella gerarchia.

Set di dati

I set di dati sono container logici utilizzati per organizzare e controllare l'accesso le tue risorse BigQuery. I set di dati sono simili agli schemi in altri sistemi di database.

La maggior parte delle risorse BigQuery che crei, tra cui tabelle, viste, funzioni e procedure sono create all'interno di un set di dati. Le connessioni e i job sono eccezioni. sono associate ai progetti dei set di dati.

Un set di dati ha una location. Quando crei una tabella, i dati della tabella sono archiviati nella posizione del set di dati. Prima di creare tabelle per i dati di produzione, pensa requisiti per le località. Non puoi la posizione di un set di dati dopo la sua creazione.

Progetti

Ogni set di dati è associato a un progetto. Per utilizzare Google Cloud, devi creare almeno un progetto. I progetti sono la base per creare, abilitare utilizzando tutti i servizi Google Cloud. Per ulteriori informazioni, vedi Gerarchia delle risorse. Un progetto può contenere più set di dati e set di dati con località diverse nello stesso progetto.

Quando esegui operazioni sui dati BigQuery, ad esempio quando si esegue una query o importare dati in una tabella, job. Un job è sempre associato a un progetto ma non deve essere eseguito nello stesso progetto che contiene i dati. Infatti, un job può fare riferimento a tabelle di set di dati in più progetti. Un job di query, un job di caricamento o il job di esportazione viene sempre eseguito nella stessa posizione delle tabelle in cui riferimenti.

Ogni progetto ha un Account di fatturazione Cloud collegato a li annotino. I costi accumulati per un progetto vengono fatturati a quell'account. Se utilizzi prezzi on demand, le tue query vengono e viene fatturato al progetto che esegue la query. Se utilizzi prezzi basati sulla capacità, le tue prenotazioni di slot vengono addebitati al progetto di amministrazione utilizzato per acquistare gli slot. Lo spazio di archiviazione è addebitato al progetto in cui si trova il set di dati.

Cartelle

Le cartelle sono un ulteriore meccanismo di raggruppamento sopra i progetti. Progetti e le cartelle all'interno di una cartella ereditano automaticamente cartella principale. Le cartelle possono essere utilizzate per modellare diverse persone giuridiche, reparti e team all'interno di un'azienda.

Organizzazioni

La risorsa organizzazione rappresenta un'organizzazione (ad esempio un'azienda) ed è il nodo radice della gerarchia delle risorse Google Cloud.

Non hai bisogno di una risorsa organizzazione per iniziare a utilizzare BigQuery, ma consigliamo di crearne uno. Utilizzare un'organizzazione consente agli amministratori di controllare centralmente i dati BigQuery anziché da singoli utenti a controllare le risorse che creano.

Il seguente diagramma mostra un esempio della gerarchia delle risorse. In questo Ad esempio, se l'organizzazione ha un progetto all'interno di una cartella, Il progetto è associato a un account di fatturazione, e contiene tre set di dati.

Gerarchia delle risorse

Considerazioni

Quando scegli come organizzare le risorse BigQuery, valuta la possibilità i seguenti punti:

  • Quote. Molte quote di BigQuery vengono applicate a livello di progetto. Alcuni si applicano a livello del set di dati. A livello di progetto che coinvolgono le risorse di calcolo, come query e job di caricamento, vengono conteggiate a fronte del progetto che crea il job, anziché della quota progetto.
  • Fatturazione. Se vuoi che vari reparti dell'organizzazione utilizzino diversi account di fatturazione Cloud, quindi crei progetti diversi ogni team. Crea gli account di fatturazione Cloud nell'organizzazione livello e associare i progetti.
  • Prenotazioni di slot. Gli slot prenotati hanno come ambito la risorsa Organizzazione. Dopo aver acquistato capacità slot prenotata, puoi Assegnare un pool di slot a qualsiasi progetto o cartella all'interno dell'organizzazione oppure e assegnare slot all'intera risorsa organizzazione. I progetti ereditano lo slot le prenotazioni dalla cartella principale o dalla relativa organizzazione. Gli slot prenotati sono associati a un progetto di amministrazione, che viene utilizzato per gestire gli slot. Per ulteriori informazioni, vedi Gestione dei carichi di lavoro tramite le prenotazioni
  • Autorizzazioni. Valuta in che modo la tua gerarchia delle autorizzazioni influisce sugli utenti dell'organizzazione che devono accedere ai dati. Ad esempio, se vuoi concedere a un intero team l'accesso a dati specifici, potresti archiviarli in un in un unico progetto per semplificare la gestione degli accessi.

    Le tabelle e altre entità ereditano le autorizzazioni e un set di dati padre. I set di dati ereditano le autorizzazioni dalle entità padre nel della gerarchia delle risorse (progetti, cartelle, organizzazioni). Per eseguire un'operazione su una risorsa, un utente deve disporre sia delle autorizzazioni pertinenti anche l'autorizzazione per creare un job BigQuery. L'autorizzazione a per creare un job è associato al progetto utilizzato per quel job.

Pattern

Questa sezione illustra due pattern comuni per organizzare BigQuery Google Cloud.

  • Data lake centrale, data mart di reparto. L'organizzazione crea un di archiviazione unificata per conservare i dati non elaborati. Reparti all'interno del organizzazione che creano i propri progetti Data Mart per l'analisi.

  • Data lake di reparto, data warehouse centrale. Ogni reparto crea e gestisce il proprio progetto di archiviazione per conservare i dati non elaborati di quel reparto. L'organizzazione crea quindi un progetto di data warehouse centrale per l'analisi.

Entrambi gli approcci hanno pro e contro. Molte organizzazioni uniscono di entrambi gli schemi.

Data lake centrale, data mart di reparto

Con questo pattern, crei un progetto di archiviazione unificato per dati non elaborati dell'organizzazione. La pipeline di importazione dati può essere eseguita anche progetto. Il progetto di archiviazione unificato funge da data lake per la tua organizzazione.

Ogni reparto ha il proprio progetto dedicato, che usa per eseguire query sui dati, salvare i risultati delle query e creare viste. Questi progetti a livello di dipartimento data mart. Sono associati all'account di fatturazione del reparto.

Modello di data lake centrale

I vantaggi di questa struttura includono:

  • Un team di data engineering centralizzato può gestire la pipeline di importazione in un unico posto.
  • I dati non elaborati sono isolati dai progetti a livello di reparto.
  • Con i prezzi on demand, la fatturazione per l'esecuzione delle query viene addebitata alla reparto che esegue la query.
  • Con i prezzi basati sulla capacità, puoi assegnare slot a ciascun reparto in base i requisiti di computing previsti.
  • Ogni reparto è isolato dagli altri in termini di quote a livello di progetto.

Quando si utilizza questa struttura, le seguenti autorizzazioni sono tipiche:

  • Al team centrale di data engineering vengono assegnati l'Editor dati e l'Utente job BigQuery i ruoli per il progetto di archiviazione. che consentono di importare e modificare i dati progetto di archiviazione.
  • Agli analisti dei dipartimenti viene concesso il ruolo Visualizzatore dati BigQuery per set di dati specifici nel progetto di data lake centrale. Ciò consente loro di eseguire una query sui dati, ma non per aggiornare o eliminare i dati non elaborati.
  • Agli analisti dei dipartimenti è inoltre concesso l'editor dati BigQuery e il ruolo Utente job per il progetto Data Mart del relativo reparto. Ciò consente creare e aggiornare le tabelle nel loro progetto ed eseguire job di query, per trasformare e aggregare i dati per un uso specifico del reparto.

Per ulteriori informazioni, vedi Ruoli e autorizzazioni di base.

Data lake dei dipartimenti, data warehouse centrale

In questo pattern, ogni reparto crea e gestisce il proprio progetto di archiviazione, che contiene i dati non elaborati di quel reparto. Un progetto di data warehouse centrale archivia aggregazioni o trasformazioni dei dati non elaborati.

Gli analisti possono eseguire query e leggere i dati aggregati del progetto di data warehouse. Il progetto di data warehouse fornisce anche un livello di accesso per le attività di intelligenza artificiale (BI).

Modello di data lake dei dipartimenti

I vantaggi di questa struttura includono:

  • È più semplice gestire l'accesso ai dati a livello di reparto, utilizzando per ogni reparto.
  • Un team centrale di analisi ha un unico progetto per l'esecuzione dei job di analisi, che semplifica il monitoraggio delle query.
  • Gli utenti possono accedere ai dati da uno strumento BI centralizzato, che viene mantenuto isolato dai dati non elaborati.
  • È possibile assegnare slot al progetto di data warehouse per gestire tutte le query da analisti e strumenti esterni.

Quando si utilizza questa struttura, le seguenti autorizzazioni sono tipiche:

  • I data engineer possono utilizzare BigQuery Data Editor e Ruoli utente del job BigQuery nel data mart del proprio reparto. Questi ruoli consentono loro di importare e trasformare i dati nel proprio data mart.
  • Gli analisti hanno a disposizione l'editor dati BigQuery Ruoli utente del job BigQuery nel progetto di data warehouse. Questi consentono loro di creare viste aggregate nel data warehouse ed eseguire nei job di query.
  • Gli account di servizio che connettono BigQuery agli strumenti BI vengono concessi il ruolo Visualizzatore dati BigQuery per set di dati specifici, che possono contengono dati non elaborati provenienti dal data lake o dati trasformati all'interno dei dati nel tuo progetto di warehouse.

Per ulteriori informazioni, vedi Ruoli e autorizzazioni di base.

Puoi usare anche funzionalità di sicurezza come visualizzazioni autorizzate e funzioni definite dall'utente autorizzate per rendere disponibili i dati aggregati a determinati utenti senza concederli per visualizzare i dati non elaborati nei progetti Data Mart.

Questa struttura di progetto può generare molte query simultanee sui dati nel tuo progetto di warehouse. Di conseguenza, potresti fare clic limite di query simultanee. Se adotti questo struttura, ti consigliamo di aumentare il limite di quota per il progetto. Guarda anche usando la fatturazione basata sulla capacità, in modo da poter acquistare un pool di slot per l'esecuzione query.