Questa pagina è stata tradotta dall'API Cloud Translation.

Aggiungi una zona

Questo documento descrive cosa sono le zone Dataplex Universal Catalog e come aggiungerle al tuo lake Dataplex Universal Catalog.

Panoramica

Le zone Dataplex Universal Catalog sono entità denominate all'interno di un lake Dataplex Universal Catalog. Si tratta di raggruppamenti logici di dati non strutturati, semistrutturati e strutturati, costituiti da più asset, come bucket Cloud Storage, set di dati BigQuery e tabelle BigQuery.

Un lago può includere una o più zone. Anche se una zona può far parte di un solo lake, potrebbe contenere asset che puntano a risorse che fanno parte di progetti al di fuori del progetto padre.

Puoi selezionare le configurazioni per una zona in Dataplex Universal Catalog. Esistono due tipi di zone tra cui scegliere: grezze e curate.

Zone non elaborate

Le zone non elaborate archiviano dati strutturati, dati semistrutturati come file CSV e file JSON e dati non strutturati in qualsiasi formato da fonti esterne. Le zone non elaborate sono utili per l'archiviazione temporanea dei dati non elaborati prima di eseguire qualsiasi trasformazione. I dati possono essere archiviati nei bucket Cloud Storage o nei set di dati BigQuery.

Le zone non elaborate supportano la granularità a livello di bucket o di set di dati per le autorizzazioni di lettura e scrittura. Non esistono limitazioni al tipo di dati che possono essere archiviati nelle zone non elaborate.

Zone curate

Le zone curate archiviano dati strutturati. I dati possono essere archiviati nei bucket Cloud Storage o nei set di dati BigQuery.

I formati supportati per i bucket Cloud Storage includono Parquet, Avro e ORC. Le zone curate sono utili per organizzare i dati che richiedono l'elaborazione prima di essere utilizzati per l'analisi o per pubblicare i dati pronti per l'analisi.

Per le tabelle BigQuery, devi avere uno schema ben definito e partizioni in stile Hive. Quando fornisci uno schema per una determinata tabella in una zona curata, i dati devono essere conformi allo schema definito per la tabella senza deriva dello schema. Ciò significa che i dati devono essere compatibili con lo schema definito per la tabella e le nuove partizioni non devono avere uno schema in conflitto con lo schema della tabella.

Le zone curate supportano la granularità a livello di bucket Cloud Storage o di set di dati BigQuery per le autorizzazioni di lettura e scrittura.

Prima di iniziare

Prima di poter aggiungere zone a un lake, devi averne creato uno. Se non l'hai ancora fatto, crea un lake.

La maggior parte dei comandi gcloud lake richiede una posizione. Puoi specificare la posizione impostando il parametro --location.

Ruoli obbligatori

Per ottenere l'autorizzazione necessaria per aggiungere una zona, chiedi all'amministratore di concederti il ruolo IAM Dataplex Administrator (roles/dataplex.admin) nel progetto. Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questo ruolo predefinito contiene l'autorizzazione dataplex.lakes.create necessaria per aggiungere una zona.

Potresti anche ottenere questa autorizzazione con ruoli personalizzati o altri ruoli predefiniti.