Dataplex unisce il percorso end-to-end dell'analisi con una gestione centralizzata dei dati e dei servizi. Questo glossario spera di definire i termini utilizzati all'interno del sistema di gestione.
Elenco dei glossari
Azione
Problemi strategici dell'utente. Ecco alcuni esempi:
- Propagazione dei criteri di sicurezza non riuscita a causa di un gruppo di sicurezza inesistente fornito dall'utente.
- Dataplex non accede a una risorsa gestita.
- Il job di rilevamento non è riuscito per vari motivi (che possono essere corretti dall'utente). Ciò può essere dovuto a problemi dei dati utente, come formati dei dati non validi, schema incompatibile tra partizioni o denominazione delle partizioni incoerente e così via.
Le azioni vengono generate automaticamente da Dataplex. Alcune azioni vengono cancellate automaticamente da Dataplex quando viene rilevato che il problema sottostante è stato risolto dall'utente. Le altre azioni devono essere contrassegnate esplicitamente come risolte dall'utente.
Ad esempio, dopo che l'utente ha eseguito l'azione di rilevamento, deve chiamare l'API Dataplex per contrassegnare le azioni come risolte in modo che il sistema di rilevamento possa riattivare e pianificare un'esecuzione immediata del rilevamento.
Asset
L'asset rappresenta una singola risorsa gestita (bucket/set di dati) in Dataplex. È anche un segnaposto per varie configurazioni per la risorsa gestita e i sottosistemi (discovery, amministrazione dei criteri ecc.) che agiscono su di essi.
BigQuery
BigQuery è il data warehouse di analisi di Google Cloud completamente gestito, su scala petabyte e dai costi contenuti, che ti consente di eseguire analisi su vaste quantità di dati quasi in tempo reale.
Con BigQuery, non è necessario configurare o gestire alcuna infrastruttura e puoi concentrarti sulla ricerca di insight significativi utilizzando il linguaggio SQL standard e sfruttare i modelli di prezzo flessibili per le opzioni on demand e a costo fisso. Scopri di più
Dati
Dati utente all'interno di una risorsa gestita. Ad esempio, oggetti Cloud Storage in un bucket o righe di tabella BigQuery in un set di dati. Nel caso di Cloud Storage, gli oggetti sono unità immutabili dei dati utente. Nel caso di un set di dati BigQuery, le righe all'interno delle tabelle secondarie sono considerate dati utente.
Data Catalog
Data Catalog è un servizio di gestione dei metadati completamente gestito e scalabile che consente alle organizzazioni di scoprire, gestire e comprendere rapidamente tutti i dati in Google Cloud. Scopri di più
Account di servizio Dataplex
Rappresenta un account di servizio Google Cloud gestito internamente che esegue varie azioni per conto di Dataplex. Ad esempio, le credenziali dell'account di servizio vengono utilizzate dal sistema di rilevamento, dall'amministrazione dei criteri e così via.
L'account di servizio ha bisogno di varie autorizzazioni IAM su risorse e progetti gestiti dagli utenti per eseguire il relativo job. Alcuni vengono concessi automaticamente durante l'attivazione di Dataplex per un progetto. Altri (ad esempio, il collegamento di un bucket da un altro progetto) devono essere concessi manualmente dall'utente.
Dataproc Metastore
Dataproc Metastore è un servizio di metastore nativo di OSS, completamente gestito, a disponibilità elevata, con scalabilità automatica e che semplifica notevolmente la gestione tecnica dei metadati. Il servizio Dataproc Metastore si basa sul metastore Apache Hive e funge da componente critico per i data lake aziendali. Scopri di più
Discovery
Sottosistema responsabile della scansione dei dati utente e dell'estrazione dei metadati.
Gruppo di voci
Un gruppo di voci contiene voci. Un gruppo di voci è un insieme di voci logicamente correlate, insieme ai criteri di Identity and Access Management, che specificano gli utenti che possono creare, modificare e visualizzare le voci all'interno di un gruppo di voci.
Set di file
Un set di file è una voce all'interno di un gruppo di voci creato dall'utente. Un set di file è definito da uno o più pattern di file che specificano un insieme di uno o più file Cloud Storage. Le voci dei set di file possono essere utilizzate per organizzare e scoprire i file di Cloud Storage e per aggiungere metadati.
Lake
Un lake è un repository centralizzato per la gestione dei dati aziendali in tutta l'organizzazione distribuito in molti progetti cloud e archiviato in una varietà di servizi di archiviazione come Cloud Storage e BigQuery. Le risorse collegate a un lake sono definite risorse gestite. I dati all'interno di queste risorse gestite possono essere strutturati o non strutturati.
Un data lake offre agli amministratori dati strumenti per organizzare, proteggere e gestire i loro dati su larga scala e offre a data scientist e data engineer un'esperienza integrata per cercare, scoprire, analizzare e trasformare facilmente i dati e i metadati associati.
Log
Log di Stackdriver forniti da Dataplex che gli utenti possono utilizzare per acquisire informazioni sul funzionamento del proprio lake, eseguire il debug, impostare avvisi e così via. Ad esempio, i log che:
- Fai risaltare le azioni che richiedono attenzione
- Fai emergere le modifiche ai metadati
- Mostra un riepilogo delle esecuzioni di job
- Fai emergere azioni dei job di rilevamento (file letti, scritti ecc.)
Metadati
Informazioni estratte dai dati utente dal sistema di rilevamento. Ad esempio, nome del bucket Cloud Storage, proprietà del set di dati BigQuery, schema delle tabelle BigQuery secondarie e così via.
Esistono due tipi di metadati:
- Metadati tecnici come lo schema
- Metadati operativi come le statistiche dei dati (numero e dimensioni totali di oggetti in Cloud Storage)
Metriche
Le metriche rappresentano le metriche Stackdriver esposte come API pubbliche da Dataplex, che possono essere utilizzate dagli utenti per configurare avvisi di Stackdriver o visualizzarli tramite grafici. Per ulteriori informazioni su metriche Dataplex specifiche, consulta DataCloud Cloud Monitoring.
Propagazione
La modifica di determinate configurazioni di risorse avvia un processo asincrono in background per riconciliare lo stato delle risorse gestite con ciò che l'utente ha specificato. Ad esempio, la configurazione di sicurezza specificata in un lake deve essere propagata al criterio IAM di potenzialmente migliaia di risorse gestite (bucket/set di dati) in quel lake. Non accade immediatamente quando viene richiamata l'API. Questo processo è definito propagazione.
Lo stato della propagazione si rifletterà nei campi di stato pertinenti e gli errori verranno mostrati tramite le azioni.
Risorsa
Risorsa Dataplex
Risorse Google Cloud definite dal servizio Dataplex, come lake, zone dati e asset.
Risorsa secondaria
Figlio di una risorsa gestita. Ad esempio, oggetti Cloud Storage o tabelle/routine/modelli BigQuery. L'amministrazione dei criteri delle risorse figlio non viene eseguita direttamente tramite Dataplex, tuttavia il suo criterio effettivo viene influenzato da ciò che viene ereditato dalla risorsa padre.
Risorsa gestita
Risorse Google Cloud che possono essere amministrate e scoperte tramite Dataplex. Attualmente, i bucket Cloud Storage e i set di dati BigQuery. Una risorsa gestita può appartenere a un progetto diverso dal lake, ma deve appartenere alla stessa organizzazione.
Spec
Specifica dell'utente. Ecco alcuni esempi:
- Le specifiche di sicurezza specificano la configurazione di sicurezza per lake/zona/asset.
- Le specifiche della risorsa per un asset specificano un puntatore alla risorsa gestita (bucket/set di dati).
- La specifica di rilevamento specifica la configurazione di rilevamento per un asset.
Stato
Rappresenta lo stato della specifica fornita dall'utente, ad esempio:
- Lo stato della sicurezza rappresenta lo stato della propagazione dei criteri di sicurezza (ad esempio le specifiche di sicurezza) ai bucket/set di dati sottostanti.
- Lo stato della risorsa rappresenta lo stato della risorsa gestita (ok / non trovata/autorizzazione negata e così via) specificata nella specifica della risorsa.
- Lo stato del rilevamento rappresenta lo stato del job di rilevamento, che si basa sulle specifiche di rilevamento.
Tabella
Tabella logica (righe e colonne) con uno schema ben definito (nomi e nomi delle colonne) supportato da dati (o sottoinsieme degli stessi) in una risorsa gestita. Ad esempio, una tabella può essere supportata da un sottoinsieme di oggetti Cloud Storage in un bucket Cloud Storage o da una tabella BigQuery nel set di dati BigQuery.
- Le tabelle come concetto di prima classe vengono visualizzate in Dataproc Metastore, Data Catalog e BigQuery (registrazione dei metadati). Le tabelle non verranno visualizzate a valle se il rilevamento o la pubblicazione nel sistema a valle non sono abilitati. Ad esempio, le tabelle rilevate dai dati utente in Cloud Storage non verranno visualizzate in BigQuery se la pubblicazione in BigQuery non è abilitata.
- Scoperto dal sistema di rilevamento. Non possono essere creati dall'utente.
- I nomi delle tabelle vengono generati in modo breve e significativi, per semplificarne l'esecuzione di query. I nomi contengono tre parti,
[Prefix_]table root path[_Sequence number]
.
Zona
Un container logico di una o più risorse di dati create all'interno di un lake. Una zona dati può essere utilizzata per modellare le unità aziendali all'interno di un'organizzazione (ad esempio, vendite e operazioni). Le zone dati modellano anche il percorso dei dati o l'idoneità al consumo.
Zona non elaborata
Una zona dati contenente dati che richiedono un'ulteriore elaborazione prima di essere considerata generalmente pronta per il consumo e i carichi di lavoro di analisi.
Zona organizzata
Una zona dati che contiene i dati che sono considerati pronti per carichi di lavoro di analisi e consumo più ampi. I dati strutturati curati archiviati in Cloud Storage devono essere conformi a determinati formati di file (Parquet, Avro e ORC) e organizzati in un layout di directory compatibile con l'hive.
Che cosa succede dopo?
- Scopri di più su Dataplex.
- Scopri di più sulla guida rapida.