Questa pagina presenta le zone e spiega come aggiungere zone al lake Dataplex.
Concetti delle zone Dataplex
Le zone dati sono entità denominate all'interno di un Dataplex lake. Si tratta di raggruppamenti logici di dati non strutturati, semistrutturati e strutturati, composti da più asset, come bucket Cloud Storage, set di dati BigQuery e tabelle BigQuery.
Un lake può includere una o più zone. Una zona può far parte solo di un lake, ma può contenere asset che rimandano a risorse che fanno parte di progetti esterni al progetto principale.
Puoi selezionare le configurazioni per una zona in Dataplex. Puoi scegliere tra due tipi di zone: non elaborate e curate.
Zone non elaborate
Le zone non elaborate archiviano i dati strutturati, semistrutturati e non strutturati in qualsiasi formato da origini esterne. Questo è utile per gestire in modo gestione temporanea i dati non elaborati prima di eseguire eventuali trasformazioni. I dati possono essere archiviati nei bucket Cloud Storage o nei set di dati BigQuery.
Le zone non elaborate supportano la granularità a livello di bucket o di set di dati per le autorizzazioni di lettura e scrittura. Per saperne di più, vedi IAM e controllo dell'accesso.
Non ci sono limitazioni sul tipo di dati che possono essere archiviati in zone non elaborate.
Zone curate
Le zone curate archiviano i dati strutturati. I dati possono essere archiviati nei bucket Cloud Storage o nei set di dati BigQuery.
I formati supportati per i bucket Cloud Storage includono Parquet, Avro e ORC. Questo è utile per gestire in modo gestione temporanea i dati che devono essere elaborati prima di essere utilizzati per l'analisi o per fornire dati pronti per l'analisi.
Per le tabelle BigQuery, devi avere uno schema ben definito e partizioni in stile Hive. Quando fornisci uno schema per una determinata tabella in una zona selezionata, i dati devono essere conformi allo schema definito per la tabella senza deviazione dello schema.
Ciò significa che i dati devono essere compatibili con lo schema definito per la tabella e le nuove partizioni non devono avere uno schema in conflitto con lo schema della tabella.
Le zone curate supportano una granularità a livello di bucket Cloud Storage o di set di dati BigQuery per le autorizzazioni di lettura e scrittura. Per saperne di più, vedi Controllo dell'accesso con IAM.
Prima di iniziare
Per poter aggiungere zone a un lake, devi avere un lake. Se non l'hai già fatto, crea un lake.
La maggior parte dei comandi gcloud lake
richiede una posizione. Puoi specificare la località impostando il parametro --location
.
Controllo dell'accesso
- Per aggiungere una zona, devi disporre dei ruoli IAM contenenti l'autorizzazione IAM
dataplex.lakes.create
. Il ruolo specifico di Dataplexroles/dataplex.admin
può essere utilizzato per concedere le autorizzazioni per aggiungere.
Per saperne di più, vedi Controllo dell'accesso a Dataplex con IAM.
Aggiungi una zona
Puoi creare e aggiungere una nuova zona a un lake esistente eseguendo il
metodo dell'API Dataplex lakes.zones.create
o aggiungendo una zona nella console Google Cloud.
Puoi aggiungere più zone al tuo lake. Puoi aggiungere una zona alla volta, ma utilizzare comunque il tuo lake durante la creazione della zona.
Console
Nella console Google Cloud, vai a Dataplex:
Vai alla visualizzazione Gestisci.
Nella visualizzazione Gestisci, fai clic sul nome del lago a cui vuoi aggiungere una zona.
Nella scheda Zone, fai clic su
Aggiungi zona.Inserisci un Nome visualizzato per la zona.
Fai clic sul menu a discesa Tipo. Scegli Zona Grezza o Zona organizzata. Scopri di più sui tipi di zone supportate.
(Facoltativo) Inserisci una descrizione.
In Località dei dati, seleziona Regione o Più regioni. Ciò che scegli non potrà essere modificato in un secondo momento. I dati a livello di una singola regione e di più regioni non possono essere combinati nella stessa zona.
Facoltativo: abilita il rilevamento dei metadati, che consente a Dataplex di scansionare ed estrarre automaticamente i metadati dai dati nella tua zona:
Fai clic su Impostazioni di rilevamento.
Assicurati che l'opzione Attiva rilevamento metadati sia selezionata.
(Facoltativo) In Includi pattern, elenca i file da includere nelle scansioni di rilevamento.
(Facoltativo) In Escludi pattern, elenca i file da escludere nelle scansioni di individuazione. Se inserisci entrambi i pattern di inclusione ed esclusione, quelli di esclusione vengono applicati per primi.
Fai clic sull'elenco a discesa Si ripete e seleziona una frequenza.
Fai clic sul menu a discesa Fuso orario e seleziona un fuso orario.
Se in Ripetizioni hai selezionato Personalizzato, in Pianificazione inserisci una pianificazione dei lavori. In caso contrario, il valore Pianificazione viene inserito automaticamente.
Fai clic su Crea.
La creazione della zona potrebbe richiedere alcuni minuti.
REST
Segui le istruzioni dell'API per aggiungere una zona utilizzando Explorer API.
Una volta creata correttamente la zona, la zona entra automaticamente in stato attivo. Se non riesce, il lake viene riportato al suo stato precedente.
Dopo aver creato la zona, puoi mappare i dati archiviati nei bucket Cloud Storage e nei set di dati BigQuery come asset nella zona.
Quali sono i passaggi successivi?
- Scopri di più sulla gestione dei bucket.
- Scopri di più sulla creazione di un lake.
- Scopri di più su Cloud Audit Logs.