Questo documento descrive che cosa sono le zone Dataplex e come aggiungerle al lake Dataplex.
Panoramica
Le zone Dataplex sono entità denominate all'interno di un data lake Dataplex. Si tratta di raggruppamenti logici di dati non strutturati, semistrutturati e strutturati, costituiti da più asset, come bucket Cloud Storage, set di dati BigQuery e tabelle BigQuery.
Un lago può includere una o più zone. Sebbene una zona possa far parte solo di un lago, potrebbe contenere asset che rimandano a risorse che fanno parte di progetti al di fuori del progetto principale.
Puoi selezionare le configurazioni per una zona in Dataplex. Puoi scegliere tra due tipi di zone: non elaborate e selezionate.
Zone non elaborate
Le zone non elaborate archiviano dati strutturati, dati semistrutturati come file CSV e file JSON e dati non strutturati in qualsiasi formato provenienti da origini esterne. Le zone non elaborate sono utili per l'archiviazione temporanea dei dati non elaborati prima di eseguire qualsiasi trasformazione. I dati possono essere archiviati in bucket Cloud Storage o set di dati BigQuery.
Le zone non elaborate supportano la granularità a livello di bucket o di set di dati per le autorizzazioni di lettura e scrittura. Non ci sono limitazioni sul tipo di dati che possono essere archiviati nelle zone non elaborate.
Zone selezionate
Le zone selezionate archiviano dati strutturati. I dati possono essere archiviati nei bucket Cloud Storage o nei set di dati BigQuery.
I formati supportati per i bucket Cloud Storage includono Parquet, Avro e ORC. Le zone selezionate sono utili per eseguire il staging dei dati che richiedono l'elaborazione prima di essere utilizzati per l'analisi o per pubblicare i dati pronti per l'analisi.
Per le tabelle BigQuery, devi avere uno schema ben definito e partizioni in stile Hive. Quando fornisci uno schema per una determinata tabella in una zona selezionata, i dati devono essere conformi allo schema definito per la tabella senza deviazioni dello schema. Ciò significa che i dati devono essere compatibili con lo schema definito per la tabella e le nuove partizioni non devono avere uno schema in conflitto con lo schema della tabella.
Le zone selezionate supportano la granularità a livello di bucket Cloud Storage o set di dati BigQuery per le autorizzazioni di lettura e scrittura.
Prima di iniziare
Per poter aggiungere zone a un lake, devi avere un lake. Se non lo hai ancora fatto, crea un lake.
La maggior parte dei comandi gcloud lake
richiede una località. Puoi specificare la località impostando il parametro --location
.
Ruoli obbligatori
Per ottenere l'autorizzazione necessaria per aggiungere una zona,
chiedi all'amministratore di concederti il ruolo IAM Amministratore Dataplex (roles/dataplex.admin
) nel progetto.
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Questo ruolo predefinito contiene l'autorizzazione
dataplex.lakes.create
necessaria per
aggiungere una zona.
Potresti anche ottenere questa autorizzazione con ruoli personalizzati o altri ruoli predefiniti.
Aggiungi una zona
Puoi aggiungere più zone al lake. Puoi aggiungere una zona alla volta, ma puoi comunque utilizzare il lake durante la creazione della zona.
Per aggiungere una zona a un lago esistente:
Console
Nella console Google Cloud, vai a Dataplex.
Vai alla visualizzazione Gestisci.
Nella visualizzazione Gestisci, fai clic sul nome del lake a cui vuoi aggiungere una zona.
Nella scheda Zone, fai clic su
Aggiungi zona.Inserisci un nome visualizzato per la zona.
Fai clic sul menu Tipo. Scegli Zona non elaborata o Zona organizzata. Scopri di più sui tipi di zone supportate.
(Facoltativo) Inserisci una descrizione.
In Località dei dati, seleziona Regionale o Multiregionale. La scelta non può essere modificata in un secondo momento. Non è possibile combinare dati a livello di una singola regione e di più regioni nella stessa zona.
(Facoltativo) Attiva il rilevamento dei metadati, che consente a Dataplex di analizzare ed estrarre automaticamente i metadati dai dati della tua zona:
Fai clic su Impostazioni di visibilità.
Assicurati che l'opzione Attiva rilevamento metadati sia selezionata.
(Facoltativo) In Includi pattern, elenca i file da includere nelle scansioni di rilevamento.
(Facoltativo) In Pattern di esclusione, elenca i file da escludere nelle scansioni di rilevamento. Se inserisci pattern di inclusione ed esclusione, quelli di esclusione vengono applicati per primi.
Fai clic sul menu Ripeti e seleziona una frequenza. Se selezioni Personalizzata, inserisci una pianificazione dei job nel campo Pianifica. In caso contrario, il valore Pianifica viene compilato automaticamente.
Fai clic sul menu Fuso orario e seleziona un fuso orario.
Fai clic su Crea.
REST
Per aggiungere una zona, utilizza il metodo lakes.zones.create.
La creazione della zona potrebbe richiedere alcuni minuti.
Se la creazione della zona va a buon fine, la zona entra automaticamente in stato attivo. Se il recupero non va a buon fine, viene eseguito il rollback del lago allo stato precedente.
Dopo aver creato la zona, puoi mappare i dati archiviati nei bucket Cloud Storage e nei set di dati BigQuery come asset alla tua zona. Per ulteriori informazioni, consulta Aggiungere un asset.
Passaggi successivi
- Scopri come gestire i bucket.
- Scopri come creare un lago.
- Scopri di più sugli audit log di Cloud.