Aggiungi una zona

Questa pagina introduce delle zone e spiega come aggiungere zone al proprio lake Dataplex.

Concetti sulle zone Dataplex

Le zone dati sono entità denominate all'interno di un lake Dataplex. Sono raggruppamenti logici di dati non strutturati, semistrutturati e strutturati, composto da più asset, come bucket Cloud Storage, BigQuery set di dati e tabelle BigQuery.

Un lake può includere una o più zone. Mentre una zona può far parte solo di uno lake, può contenere asset che puntano a risorse che fanno parte dei progetti all'esterno del progetto principale.

Puoi selezionare le configurazioni per una zona in Dataplex. Esistono puoi scegliere tra due tipi di zone: non elaborate e curate.

Zone non elaborate

Le zone non elaborate memorizzano dati strutturati, dati semistrutturati come file CSV e File JSON e dati non strutturati in qualsiasi formato da fonti esterne. Ciò è utile per la gestione temporanea dei dati non elaborati prima di eseguire e piccole trasformazioni. I dati possono essere archiviati nei bucket Cloud Storage set di dati BigQuery.

Le zone non elaborate supportano la granularità a livello di bucket o di set di dati per la lettura e la scrittura autorizzazioni aggiuntive. Per ulteriori informazioni, consulta IAM e controllo dell'accesso.

Non esistono limitazioni al tipo di dati che possono essere archiviati nelle zone non elaborate.

Zone curate

Le zone curate archiviano dati strutturati. I dati possono essere archiviati nei bucket Cloud Storage BigQuery o BigQuery.

I formati supportati per i bucket Cloud Storage includono Parquet, Avro e ORC. Ciò è utile per la gestione temporanea dei dati che devono essere elaborati prima di essere utilizzati o per fornire dati pronti per l'analisi.

Per le tabelle BigQuery, devi avere uno schema ben definito e Partizioni in stile Hive. Quando fornisci uno schema per una determinata tabella in un zona, i dati devono essere conformi allo schema definito per la tabella senza schema deviazione.

Ciò significa che i dati devono essere compatibili con lo schema definita per la tabella e le nuove partizioni non devono avere uno schema è in conflitto con lo schema della tabella.

Le zone curate supportano Granularità a livello di set di dati BigQuery per lettura e scrittura autorizzazioni aggiuntive. Per saperne di più, consulta Controllo dell'accesso con IAM.

Prima di iniziare

Per poter aggiungere zone a un lake, devi prima disporre di un lake. Se non hai crea un lake.

La maggior parte dei comandi gcloud lake richiede una posizione. Puoi specificare la località impostare il parametro --location.

Controllo degli accessi

  • Per aggiungere una zona, devi disporre dei ruoli IAM contenenti l'autorizzazione IAM dataplex.lakes.create. Dataplex è possibile utilizzare il ruolo specifico roles/dataplex.admin per concedere autorizzazioni di aggiunta.

Per ulteriori informazioni, consulta Controllo dell'accesso Dataplex con IAM.

Aggiungi una zona

Puoi creare e aggiungere una nuova zona a un lake esistente inviando Metodo API Dataplex lakes.zones.create o aggiungendo una zona nella console Google Cloud.

Puoi aggiungere più zone al lake. Puoi aggiungere una zona alla volta, utilizzerà comunque il tuo lake durante la creazione della zona.

Console

  1. Nella console Google Cloud, vai a Dataplex:

    Vai a Dataplex

  2. Vai alla visualizzazione Gestisci.

  3. Nella vista Gestisci, fai clic sul nome del lake a cui vuoi aggiungere una zona di destinazione.

  4. Nella scheda Zone, fai clic su Aggiungi zona.

  5. Inserisci un Nome visualizzato per la zona.

  6. Fai clic sul menu a discesa Tipo. Scegli Raw Zone (Zona non elaborata) o Curated Zone (Zona organizzata). Impara Scopri di più sui tipi di zone supportati.

  7. (Facoltativo) Inserisci una descrizione.

  8. In Località dei dati, seleziona A livello di regione o Più regioni. La scelta non può essere modificata in un secondo momento. Una o più regioni non possono essere combinati nella stessa zona.

  9. (Facoltativo) Abilita il rilevamento dei metadati, che consente a Dataplex per eseguire automaticamente la scansione ed estrarre i metadati dai dati nella tua zona:

    1. Fai clic su Impostazioni di rilevamento.

    2. Assicurati che l'opzione Attiva rilevamento metadati sia selezionata.

    3. (Facoltativo) In Includi pattern, elenca i file da includere nella di rilevamento delle immagini.

    4. (Facoltativo) In Escludi pattern, elenca i file da escludere nella di rilevamento delle immagini. Se inserisci sia i pattern di inclusione che quelli di esclusione, escludi vengono applicati per primi i pattern.

    5. Fai clic sul menu a discesa Si ripete e seleziona una frequenza.

    6. Fai clic sul menu a discesa Fuso orario e seleziona un fuso orario.

    7. Se in Si ripete hai selezionato Personalizzato, in Programmazione inserisci una pianificazione dei job. In caso contrario, il valore Schedule viene compilato automaticamente.

  10. Fai clic su Crea.

La creazione della zona potrebbe richiedere alcuni minuti.

REST

Segui le istruzioni dell'API per aggiungere una zona utilizzando Explorer API.

Quando la creazione della zona va a buon fine, la zona entra automaticamente in stato attivo. Se un errore, viene eseguito il rollback del lake allo stato precedente.

Dopo aver creato la zona, puoi mappare i dati archiviati nei bucket Cloud Storage set di dati BigQuery come asset nel tuo zona di destinazione.

Passaggi successivi