Glossario Dataplex

Dataplex unifica il percorso end-to-end per l'analisi con una gestione centralizzata di dati e servizi. Questo glossario spera di definire i termini utilizzati all'interno del sistema di gestione.

Elenco di glossario

Azione

Problemi strategici per l'utente. Ad esempio:

  • La propagazione del criterio di sicurezza non è riuscita a causa di un gruppo di sicurezza inesistente fornito dall'utente.
  • Dataplex non può accedere a una risorsa gestita.
  • Il job di rilevamento non è riuscito per vari motivi (che possono essere risolti dall'utente). Ciò può essere dovuto a problemi relativi ai dati utente, come formati dei dati non validi, schema incompatibile tra le partizioni o denominazione incoerente delle partizioni e così via.

Le azioni vengono generate automaticamente da Dataplex. Alcune azioni vengono annullate automaticamente da Dataplex quando viene rilevato che il problema sottostante è stato risolto dall'utente. Altre azioni devono essere contrassegnate esplicitamente come risolte dall'utente.

Ad esempio, dopo che l'utente si occupa delle azioni di rilevamento, deve chiamare l'API Dataplex per contrassegnare le azioni come risolte, in modo che il sistema di rilevamento possa riattivare e pianificare un'esecuzione di rilevamento immediata.

Asset

L'asset rappresenta una singola risorsa gestita (bucket/set di dati) in Dataplex. È anche un segnaposto per varie configurazioni per le risorse e i sottosistemi gestiti (rilevamento, amministrazione dei criteri e così via) che agiscono su di essi.

BigQuery

BigQuery è il data warehouse di analisi di Google Cloud completamente gestito, economico e su scala petabyte, che consente di eseguire analisi su enormi quantità di dati quasi in tempo reale.

Con BigQuery, non devi configurare o gestire alcuna infrastruttura, così puoi concentrarti sulla ricerca di insight significativi utilizzando SQL standard e sui vantaggi di modelli di prezzo flessibili con opzioni on demand e a costo fisso. Scopri di più

Dati

Dati utente all'interno di una risorsa gestita. ad esempio oggetti Cloud Storage in un bucket o righe di tabelle BigQuery Nel caso di Cloud Storage, gli oggetti sono unità immutabili di dati utente. Nel caso di un set di dati BigQuery, le righe all'interno delle tabelle figlio sono considerate dati utente.

Data Catalog

Data Catalog è un servizio di gestione dei metadati completamente gestito e scalabile che consente alle organizzazioni di rilevare, gestire e comprendere rapidamente tutti i loro dati in Google Cloud. Scopri di più

Account di servizio Dataplex

Rappresenta un agente di servizio, un tipo di account di servizio che esegue varie azioni per conto di Dataplex. Ad esempio, il sistema di rilevamento e il sistema di amministrazione dei criteri si basano sull'agente di servizio.

L'agente di servizio ha bisogno di varie autorizzazioni IAM su risorse e progetti gestiti dall'utente per eseguire il suo job. Alcune vengono concesse automaticamente come parte dell'attivazione di Dataplex su un progetto. Altre, ad esempio il collegamento di un bucket da un progetto diverso, devono essere concesse manualmente dall'utente.

Dataproc Metastore

Dataproc Metastore è un servizio di metastore nativo di OSS, completamente gestito, a disponibilità elevata, con scalabilità automatica e riparazione automatica, che semplifica notevolmente la gestione dei metadati tecnici. Il servizio Dataproc Metastore si basa sul metastore Apache Hive e funge da componente fondamentale per i data lake aziendali. Scopri di più

Scoperta

Sottosistema responsabile della scansione dei dati utente e dell'estrazione dei metadati.

Gruppo di voci

Un gruppo di voci contiene voci. Un gruppo di voci è un insieme di voci correlate logicamente insieme a criteri di Identity and Access Management che specificano gli utenti che possono creare, modificare e visualizzare le voci all'interno di un gruppo di voci.

Set di file

Un set di file è una voce all'interno di un gruppo di voci creato dall'utente. Un set di file è definito da uno o più pattern di file che specificano un insieme di uno o più file di Cloud Storage. Le voci del set di file possono essere utilizzate per organizzare e individuare i file di Cloud Storage e per aggiungere metadati.

Lake

Un lake è un repository centralizzato per la gestione dei dati aziendali in tutta l'organizzazione, distribuiti in numerosi progetti cloud e archiviati in vari servizi di archiviazione, come Cloud Storage e BigQuery. Le risorse collegate a un lake sono definite risorse gestite. I dati all'interno di queste risorse gestite possono essere strutturati o non strutturati.

Un lake fornisce agli amministratori di dati strumenti per organizzare, proteggere e gestire i dati su larga scala e offre a data scientist e data engineer un'esperienza integrata per cercare, trovare, analizzare e trasformare facilmente i dati e i metadati associati.

Log

Log di Stackdriver forniti da Dataplex che gli utenti possono utilizzare per ottenere insight sul funzionamento del loro lake, eseguire debug, impostare avvisi e così via. Ad esempio, i log che:

  • Mostrare le azioni che richiedono attenzione
  • Rileva le modifiche ai metadati
  • Visualizza un riepilogo delle esecuzioni del job
  • Azioni dei job di rilevamento delle superfici (file letti, scritti e così via)

Metadati

Informazioni estratte dai dati utente dal sistema di rilevamento. Ad esempio, nome del bucket Cloud Storage, proprietà del set di dati BigQuery, schema delle tabelle BigQuery secondarie e così via.

Esistono due tipi di metadati:

  • Metadati tecnici come lo schema
  • Metadati operativi come le statistiche dei dati (numero e dimensioni totali degli oggetti in Cloud Storage)

Metriche

Le metriche rappresentano le metriche di Stackdriver esposte come API pubblica da Dataplex, che possono quindi essere utilizzate dagli utenti per configurare avvisi di Stackdriver o visualizzarli tramite grafici. Consulta Dataplex Cloud Monitoring per ulteriori informazioni su metriche Dataplex specifiche.

Propagazione

La modifica di determinate configurazioni delle risorse avvia un processo asincrono in background per riconciliare lo stato delle risorse gestite con quanto specificato dall'utente. Ad esempio, la configurazione di sicurezza specificata su un lake deve essere propagata al criterio IAM di migliaia di risorse gestite (bucket/set di dati) all'interno del lake. Ciò non avviene immediatamente quando l'API viene richiamata. Questo processo è noto come propagazione.

Lo stato della propagazione verrà indicato dai relativi campi di stato e gli errori verranno rilevati tramite azioni.

Risorsa

Risorsa Dataplex

Risorse Google Cloud definite dal servizio Dataplex come lake, zona dati e asset.

Risorsa secondaria

Elemento secondario di una risorsa gestita. ad esempio oggetti Cloud Storage o tabelle/routine/modelli BigQuery. L'amministrazione dei criteri delle risorse figlio non viene eseguita direttamente tramite Dataplex, tuttavia, il suo criterio effettivo viene influenzato da ciò che viene ereditato dall'elemento padre.

Risorsa gestita

Risorse Google Cloud che possono essere amministrate e rilevate tramite Dataplex. Attualmente, bucket Cloud Storage e set di dati BigQuery. Una risorsa gestita può appartenere a un progetto diverso dal lake, ma deve appartenere alla stessa organizzazione.

Spec

Specifica fornita dall'utente. Ad esempio:

  • La specifica di sicurezza specifica la configurazione di sicurezza per lake/zona/asset.
  • La specifica della risorsa per un asset specifica un puntatore alla risorsa gestita (bucket/set di dati).
  • La specifica di rilevamento specifica la configurazione del rilevamento per un asset.

Stato

Rappresenta lo stato della specifica fornita dall'utente. Ad esempio:

  • Lo stato di sicurezza rappresenta lo stato della propagazione del criterio di sicurezza (ad esempio una specifica di sicurezza) ai bucket/set di dati sottostanti.
  • Lo stato della risorsa rappresenta lo stato della risorsa gestita (ok / non trovata/autorizzazione negata e così via), che è specificato nella specifica della risorsa.
  • Lo stato del rilevamento rappresenta lo stato del job di rilevamento, che dipende dalle specifiche del rilevamento.

Tabella

Tabella logica (righe e colonne) con uno schema ben definito (nomi e tipi di colonna) supportato dai dati (o dal relativo sottoinsieme) in una risorsa gestita. Ad esempio, una tabella potrebbe essere supportata da un sottoinsieme di oggetti Cloud Storage in un bucket Cloud Storage o da una tabella BigQuery nel set di dati BigQuery.

  • Le tabelle come concetto di prima classe sono disponibili in Dataproc Metastore, Data Catalog e BigQuery (registrazione dei metadati). Le tabelle non verranno visualizzate downstream se il rilevamento o la pubblicazione nel sistema downstream non è abilitata. Ad esempio, le tabelle rilevate dai dati utente in Cloud Storage non verranno visualizzate in BigQuery se la pubblicazione su BigQuery non è abilitata.
  • Scoperta dal sistema di rilevamento. Non può essere creato dall'utente.
  • I nomi delle tabelle vengono generati in modo da essere brevi e significativi al fine di facilitare l'esecuzione di query. I nomi sono composti da tre parti, [Prefix_]table root path[_Sequence number].

Zona

Un container logico di una o più risorse di dati creati all'interno di un lake. Una zona dati può essere utilizzata per modellare le unità aziendali all'interno di un'organizzazione (ad esempio, vendite anziché operazioni). Le zone di dati modellano anche il percorso dei dati o l'idoneità al consumo.

Zona non elaborata

Una zona dati contenente dati che richiedono un'ulteriore elaborazione prima di essere considerati generalmente pronti per i carichi di lavoro di consumo e analisi.

Zona organizzata

Una zona dati contenente dati considerati pronti per carichi di lavoro di analisi e consumo più ampi. I dati strutturati selezionati e archiviati in Cloud Storage devono essere conformi a determinati formati file (Parquet, Avro e ORC) e organizzati in un layout di directory compatibile con Hive.

Che cosa succede dopo?