Aggiungi una zona

Questa pagina introduce le zone e spiega come aggiungere zone al lake Dataplex.

Concetti sulle zone Dataplex

Le zone dati sono entità denominate all'interno di un lake Dataplex. Sono raggruppamenti logici di dati non strutturati, semistrutturati e strutturati, costituiti da più asset, come bucket Cloud Storage, set di dati BigQuery e tabelle BigQuery.

Un lake può includere una o più zone. Sebbene una zona possa far parte solo di un lago, può contenere asset che puntano a risorse che fanno parte di progetti esterni al progetto padre.

Puoi selezionare le configurazioni per una zona in Dataplex. Puoi scegliere tra due tipi di zone: non elaborate e curate.

Zone non elaborate

Le zone non elaborate memorizzano dati strutturati, dati semistrutturati come file CSV e JSON e dati non strutturati in qualsiasi formato provenienti da origini esterne. Ciò è utile per la gestione temporanea dei dati non elaborati prima di eseguire qualsiasi trasformazione. I dati possono essere archiviati in bucket Cloud Storage o set di dati BigQuery.

Le zone non elaborate supportano la granularità a livello di bucket o di set di dati per le autorizzazioni di lettura e scrittura. Per ulteriori informazioni, consulta IAM e controllo dell'accesso.

Non esistono limitazioni al tipo di dati che possono essere archiviati nelle zone non elaborate.

Zone curate

Le zone curate archiviano dati strutturati. I dati possono essere archiviati in bucket Cloud Storage o set di dati BigQuery.

I formati supportati per i bucket Cloud Storage includono Parquet, Avro e ORC. Ciò è utile per la gestione temporanea dei dati che devono essere elaborati prima di essere utilizzati per l'analisi o per la pubblicazione di dati pronti per l'analisi.

Per le tabelle BigQuery, devi avere uno schema ben definito e partizioni di stile Hive. Quando fornisci uno schema per una determinata tabella in una zona organizzata, i dati devono essere conformi allo schema definito per la tabella senza deviazione dello schema.

Ciò significa che i dati devono essere compatibili con lo schema definito per la tabella e le nuove partizioni non devono avere uno schema in conflitto con quello della tabella.

Le zone curate supportano la granularità a livello di set di dati bucket Cloud Storage o BigQuery per le autorizzazioni di lettura e scrittura. Per saperne di più, consulta Controllo dell'accesso con IAM.

Prima di iniziare

Per poter aggiungere zone a un lake, devi prima disporre di un lake. Se non l'hai già fatto, crea un lake.

La maggior parte dei comandi gcloud lake richiede una posizione. Puoi specificare la località impostando il parametro --location.

Controllo dell'accesso

  • Per aggiungere una zona, devi disporre dei ruoli IAM contenenti l'autorizzazione IAM dataplex.lakes.create. È possibile utilizzare il ruolo specifico di Dataplex roles/dataplex.admin per concedere autorizzazioni di aggiunta.

Per ulteriori informazioni, consulta Controllo dell'accesso Dataplex con IAM.

Aggiungi una zona

Puoi creare e aggiungere una nuova zona a un lake esistente inviando il metodo dell'API Dataplex lakes.zones.create o aggiungendo una zona nella console Google Cloud.

Puoi aggiungere più zone al lake. Puoi aggiungere una zona alla volta, ma continuare a utilizzare il lake durante la creazione della zona.

Console

  1. Nella console Google Cloud, vai a Dataplex:

    Vai a Dataplex

  2. Vai alla visualizzazione Gestisci.

  3. Nella vista Gestisci, fai clic sul nome del lake a cui vuoi aggiungere una zona.

  4. Nella scheda Zone, fai clic su Aggiungi zona.

  5. Inserisci un Nome visualizzato per la zona.

  6. Fai clic sul menu a discesa Tipo. Scegli Raw Zone (Zona non elaborata) o Curated Zone (Zona organizzata). Scopri di più sui tipi di zone supportati.

  7. (Facoltativo) Inserisci una descrizione.

  8. In Località dei dati, seleziona A livello di regione o Più regioni. La scelta non può essere modificata in un secondo momento. I dati di una singola regione e di più regioni non possono essere uniti nella stessa zona.

  9. (Facoltativo) Abilita il rilevamento dei metadati, che consente a Dataplex di scansionare ed estrarre automaticamente i metadati dai dati nella tua zona:

    1. Fai clic su Impostazioni di rilevamento.

    2. Assicurati che l'opzione Attiva rilevamento metadati sia selezionata.

    3. (Facoltativo) In Includi pattern, elenca i file da includere nelle scansioni di rilevamento.

    4. (Facoltativo) In Escludi pattern, elenca i file da escludere dalle scansioni di rilevamento. Se inserisci sia i pattern di inclusione che quelli di esclusione, i pattern di esclusione vengono applicati per primi.

    5. Fai clic sul menu a discesa Si ripete e seleziona una frequenza.

    6. Fai clic sul menu a discesa Fuso orario e seleziona un fuso orario.

    7. Se in Si ripete hai selezionato Personalizzato, in Programmazione, inserisci una pianificazione del job. In caso contrario, il valore Schedule viene compilato automaticamente.

  10. Fai clic su Crea.

La creazione della zona potrebbe richiedere alcuni minuti.

REST

Segui le istruzioni dell'API per aggiungere una zona utilizzando Explorer API.

Quando la creazione della zona va a buon fine, la zona entra automaticamente in stato attivo. In caso di errore, viene eseguito il rollback del lake allo stato precedente.

Dopo aver creato la zona, puoi mappare i dati archiviati nei bucket Cloud Storage e nei set di dati BigQuery come asset nella tua zona.

Che cosa succede dopo?