Glossario di Dataplex

Dataplex unifica il percorso end-to-end per l'analisi con una gestione centralizzata di dati e servizi. Questo glossario intende definire i termini utilizzati all'interno del sistema di gestione.

Elenco di glossari

Azione

Problemi risolvibili dagli utenti. Ad esempio:

  • La propagazione dei criteri di sicurezza non è riuscita a causa di un gruppo di sicurezza fornito dall'utente non esistente.
  • Dataplex non può accedere a una risorsa gestita.
  • L'attività di discovery non è riuscita per vari motivi (che possono essere risolti dall'utente). Ciò può essere dovuto a problemi relativi ai dati utente, ad esempio formati dei dati non validi, schema non compatibile tra le partizioni o denominazione delle partizioni incoerente e così via.

Le azioni vengono generate automaticamente da Dataplex. Alcune azioni vengono chiarite automaticamente da Dataplex quando viene rilevato che il problema di fondo è stato risolto dall'utente. Altre azioni devono essere contrassegnate esplicitamente come risolte dall'utente.

Ad esempio, dopo che l'utente ha gestito le azioni di rilevamento, deve chiamare l'API Dataplex per contrassegnarle come risolte in modo che il sistema di rilevamento possa annullare la messa in pausa e pianificare un'esecuzione immediata del rilevamento.

Asset

L'asset rappresenta una singola risorsa gestita (bucket/set di dati) in Dataplex. È anche un segnaposto per varie configurazioni per la risorsa gestita e i sottosistemi (rilevamento, amministrazione dei criteri e così via) che agiscono su di essa.

BigQuery

BigQuery è il data warehouse di analisi di Google Cloud completamente gestito, su scala petabyte e dai costi contenuti, che ti consente di eseguire analisi su enormi quantità di dati quasi in tempo reale.

Con BigQuery non è necessaria alcuna infrastruttura da configurare o gestire, quindi puoi concentrarti sulla ricerca di informazioni significative utilizzando SQL standard e sfruttare i modelli di prezzi flessibili tra le opzioni on demand e a tariffa fissa. Scopri di più

Dati

Dati utente all'interno di una risorsa gestita. Ad esempio, oggetti Cloud Storage in un bucket o righe di tabelle BigQuery in un set di dati. Nel caso di Cloud Storage, gli oggetti sono unità immutabili di dati utente. Nel caso di un set di dati BigQuery, le righe all'interno delle tabelle secondarie sono considerate dati utente.

Data Catalog

Data Catalog è un servizio di gestione dei metadati completamente gestito e scalabile che consente alle organizzazioni di rilevare, gestire e comprendere rapidamente tutti i loro dati in Google Cloud. Scopri di più

Service account Dataplex

Rappresenta un agente di servizio, un tipo di account di servizio che esegue varie azioni per conto di Dataplex. Ad esempio, il sistema di rilevamento e il sistema di gestione delle norme si basano sull'agente di servizio.

L'agente di servizio per svolgere il proprio compito ha bisogno di varie autorizzazioni IAM per le risorse e i progetti gestiti dall'utente. Alcune vengono concesse automaticamente nell'ambito dell'attivazione di Dataplex in un progetto. Altre (ad esempio, l'attacco di un bucket da un altro progetto) devono essere concesse manualmente dall' utente.

Dataproc Metastore

Dataproc Metastore è un servizio di metastore completamente gestito, ad alta disponibilità, con scalabilità automatica e riparazione automatica, nativo del software open source che semplifica notevolmente la gestione dei metadati tecnici. Il servizio Dataproc Metastore si basa sul metastore Apache Hive e funge da componente fondamentale per i data lake aziendali. Scopri di più

Discovery

Sottosistema responsabile della scansione dei dati utente e dell'estrazione dei metadati.

Gruppo di voci

Un gruppo di voci contiene voci. Un gruppo di voci è un insieme di voci correlate logicamente insieme ai criteri Identity and Access Management che specificano gli utenti che possono creare, modificare e visualizzare le voci all'interno di un gruppo.

Set di file

Un set di file è una voce all'interno di un gruppo di voci creato dall'utente. Un set di file è definito da uno o più pattern di file che specificano un insieme di uno o più file Cloud Storage. Le voci del set di file possono essere utilizzate per organizzare e trovare i file di Cloud Storage, nonché per aggiungervi metadati.

Lake

Un lake è un repository centralizzato per la gestione dei dati aziendali nell'organizzazione, distribuiti su molti progetti cloud e archiviati in una serie di servizi di archiviazione come Cloud Storage e BigQuery. Le risorse collegate a un lake sono definite risorse gestite. I dati all'interno di queste risorse gestite possono essere strutturati o non strutturati.

Un lake fornisce agli amministratori dei dati gli strumenti per organizzare, proteggere e gestire i propri dati su larga scala e offre a data scientist e data engineer un'esperienza integrata per cercare, scoprire, analizzare e trasformare facilmente i dati e i metadati associati.

Log

Log di Stackdriver forniti da Dataplex che gli utenti possono utilizzare per ottenere informazioni sul funzionamento del proprio lake, eseguire il debug, impostare avvisi e così via. Ad esempio, log che:

  • Mostrare le azioni che richiedono attenzione
  • Modifiche ai metadati della scheda
  • Mostra un riepilogo delle esecuzioni dei job
  • Azioni dei job di rilevamento delle superfici (file letti, scritti e così via)

Metadati

Informazioni estratte dai dati utente dal sistema di discovery. Ad esempio, nome del bucket Cloud Storage, proprietà del set di dati BigQuery, schema delle tabelle BigQuery secondarie e così via.

Esistono due tipi di metadati:

  • Metadati tecnici come lo schema
  • Metadati operativi come statistiche dei dati (numero totale di oggetti e dimensioni in Cloud Storage)

Metriche

Le metriche rappresentano le metriche di Stackdriver esposte come API pubbliche da Dataplex, che possono essere utilizzate dagli utenti per configurare gli avvisi di Stackdriver o visualizzarle tramite grafici. Per ulteriori informazioni su metriche specifiche di Dataplex, consulta Cloud Monitoring di Dataplex.

Propagazione

La modifica di determinate configurazioni delle risorse avvia un processo asincrono in background per riconciliare lo stato delle risorse gestite con quanto specificato dall'utente. Ad esempio, la configurazione di sicurezza specificata in un lake deve essere propagata al criterio IAM di potenzialmente migliaia di risorse gestite (bucket/set di dati) all'interno del lake. Non avviene immediatamente quando viene invocata l'API. Questo processo è chiamato propagazione.

Lo stato della propagazione verrà riportato nei campi di stato pertinenti e gli errori verranno visualizzati tramite le azioni.

Risorsa

Risorsa Dataplex

Risorse Google Cloud definite dal servizio Dataplex come lake, zona dati e asset.

Risorsa secondaria

Risorsa secondaria di una risorsa gestita. Ad esempio, oggetti Cloud Storage o tabella/routine/modelli BigQuery. L'amministrazione dei criteri delle risorse secondarie non viene eseguita direttamente tramite Dataplex, ma il criterio effettivo viene influenzato da ciò che viene ereditato dalla risorsa principale.

Risorsa gestita

Risorse Google Cloud che possono essere amministrate e rilevate tramite Dataplex. Attualmente, i bucket Cloud Storage e i set di dati BigQuery. Una risorsa gestita può appartenere a un progetto diverso dal lake, ma deve appartenere alla stessa organizzazione.

Spec

Specifica fornita dall'utente. Ad esempio:

  • La specifica di sicurezza specifica la configurazione di sicurezza per lake/zone/asset.
  • La specifica della risorsa per un asset specifica un puntatore alla risorsa gestita (bucket/set di dati).
  • La specifica di rilevamento specifica la configurazione del rilevamento per un asset.

Stato

Rappresenta lo stato della specifica fornita dall'utente. Ad esempio:

  • Lo stato di sicurezza rappresenta lo stato della propagazione del criterio di sicurezza (ad esempio una specifica di sicurezza) ai bucket/set di dati sottostanti.
  • Lo stato della risorsa rappresenta lo stato della risorsa gestita (ok / non trovata/autorizzazione negata e così via) specificato nella specifica della risorsa.
  • Lo stato del rilevamento rappresenta lo stato del job di rilevamento, che è basato sulle specifiche di rilevamento.

Tabella

Tabella logica (righe e colonne) con uno schema ben definito (nomi e tipi di colonne) supportato da dati (o sottoinsiemi di dati) in una risorsa gestita. Ad esempio, una tabella può essere basata su un sottoinsieme di oggetti Cloud Storage in un bucket Cloud Storage o su una tabella BigQuery nel set di dati BigQuery.

  • Le tabelle come concetto di primo livello vengono visualizzate in Dataproc Metastore, Data Catalog e BigQuery (registrazione dei metadati). Le tabelle non verranno visualizzate a valle se la scoperta o la pubblicazione nel sistema a valle non è attivata. Ad esempio, le tabelle rilevate dai dati utente in Cloud Storage non verranno visualizzate in BigQuery se la pubblicazione in BigQuery non è abilitata.
  • Scoperto dal sistema di rilevamento. Non può essere creato dall'utente.
  • I nomi delle tabelle vengono generati in modo che siano brevi e significativi, in modo da essere facili da eseguire query. I nomi contengono tre parti, [Prefix_]table root path[_Sequence number].

Zona

Un contenitore logico di una o più risorse di dati create all'interno di un lake. Una zona di dati può essere utilizzata per modellare le unità aziendali all'interno di un'organizzazione (ad es. vendite rispetto a operazioni). Le zone dati modellano anche il percorso dei dati o la loro idoneità al consumo.

Zona non elaborata

Una zona di dati che contiene dati che richiedono un'ulteriore elaborazione prima di essere considerati generalmente pronti per il consumo e i carichi di lavoro di analisi.

Zona organizzata

Una zona di dati contenente dati considerati pronti per carichi di lavoro di analisi e consumo più ampi. I dati strutturati selezionati archiviati in Cloud Storage devono essere conformi a determinati formati di file (Parquet, Avro e ORC) e organizzati in un layout di directory compatibile con Hive.

Passaggi successivi