Glossario Dataplex

Dataplex unifica il percorso end-to-end per l'analisi con una gestione centralizzata di dati e servizi. Questo glossario vuole definire i termini usati all'interno del sistema di gestione.

Elenco di glossari

Azione

Problemi risolvibili dall'utente. Ad esempio:

  • Propagazione del criterio di sicurezza non riuscita a causa di un gruppo di sicurezza inesistente fornito dall'utente.
  • Una risorsa gestita non è accessibile da Dataplex.
  • Il job di rilevamento non è riuscito per vari motivi (che possono essere corretti dall'utente). Ciò può essere dovuto a problemi dei dati utente, ad esempio formati dei dati non validi, schema incompatibile tra le partizioni o denominazione delle partizioni incoerente e così via.

Le azioni vengono generate automaticamente da Dataplex. Alcune azioni vengono cancellate automaticamente da Dataplex quando il problema di base viene rilevato come risolto dall'utente. Le altre azioni devono essere esplicitamente contrassegnate come risolte dall'utente.

Ad esempio, dopo che l'utente ha eseguito le azioni di rilevamento, deve chiamare l'API Dataplex per contrassegnare le azioni come risolte, in modo che il sistema di rilevamento possa riattivare e pianificare un'esecuzione immediata di rilevamento.

Asset

L'asset rappresenta una singola risorsa gestita (bucket/set di dati) in Dataplex. È inoltre un segnaposto per varie configurazioni della risorsa gestita e dei sottosistemi (rilevamento, amministrazione dei criteri e così via) che agiscono su di essa.

BigQuery

BigQuery è il data warehouse di analisi completamente gestito, economico e con scalabilità nell'ordine dei petabyte di Google Cloud che ti consente di eseguire analisi su grandi quantità di dati quasi in tempo reale.

Con BigQuery, non è necessario configurare o gestire alcuna infrastruttura, permettendoti di concentrarti sulla ricerca di informazioni significative utilizzando l'SQL standard e di sfruttare modelli di prezzi flessibili per le opzioni on demand e a costo fisso. Scopri di più

Dati

Dati utente all'interno di una risorsa gestita. Ad esempio, gli oggetti Cloud Storage in un bucket o le righe di una tabella BigQuery in un set di dati. Nel caso di Cloud Storage, gli oggetti sono unità immutabili dei dati utente. Nel caso di un set di dati BigQuery, le righe all'interno delle tabelle figlio sono considerate dati utente.

Data Catalog

Data Catalog è un servizio di gestione dei metadati completamente gestito e scalabile che consente alle organizzazioni di scoprire, gestire e comprendere rapidamente tutti i propri dati in Google Cloud. Scopri di più

Account di servizio Dataplex

Rappresenta un account di servizio Google Cloud gestito internamente che esegue varie azioni per conto di Dataplex. Ad esempio, le credenziali dell'account di servizio vengono utilizzate dal sistema di rilevamento, dal sistema di amministrazione dei criteri e così via.

L'account di servizio ha bisogno di varie autorizzazioni IAM su risorse e progetti gestiti dall'utente per eseguire il proprio job. Alcune vengono concesse automaticamente nell'ambito dell'attivazione di Dataplex su un progetto. Altri (ad esempio, il collegamento di un bucket di un altro progetto) devono essere concessi manualmente dall'utente.

Dataproc Metastore

Dataproc Metastore è un servizio di metastore nativo OSS, completamente gestito, con scalabilità automatica e con scalabilità automatica, che semplifica notevolmente la gestione tecnica dei metadati. Il servizio Dataproc Metastore si basa sul metastore Apache Hive e funge da componente fondamentale per i data lake aziendali. Scopri di più

Scoperta

Sottosistema responsabile della scansione dei dati utente e dell'estrazione dei metadati.

Gruppo di voci

Un gruppo di voci contiene voci. Un gruppo di voci è un insieme di voci correlate logicamente insieme ai criteri Identity and Access Management che specificano gli utenti che possono creare, modificare e visualizzare le voci all'interno di un gruppo di voci.

Set di file

Un set di file è una voce all'interno di un gruppo di voci creato dall'utente. Un set di file è definito da uno o più pattern di file che specificano un insieme di uno o più file Cloud Storage. Le voci del set di file possono essere utilizzate per organizzare e scoprire i file Cloud Storage e per aggiungere metadati.

Lake

Un lake è un repository centralizzato per la gestione dei dati aziendali nell'organizzazione, distribuito in numerosi progetti cloud e archiviato in una serie di servizi di archiviazione come Cloud Storage e BigQuery. Le risorse collegate a un lake sono definite risorse gestite. I dati all'interno di queste risorse gestite possono essere strutturati o non strutturati.

Un lake fornisce agli amministratori dei dati gli strumenti per organizzare, proteggere e gestire i dati su larga scala e fornisce a data scientist e data engineer un'esperienza integrata per cercare, scoprire, analizzare e trasformare facilmente i dati e i metadati associati.

Log

Log di Stackdriver forniti da Dataplex che gli utenti possono utilizzare per ottenere insight sul funzionamento del lake, eseguire il debug, impostare avvisi e così via. Ad esempio, log che:

  • Individua le azioni che richiedono attenzione
  • Mostra le modifiche ai metadati
  • Mostra un riepilogo delle esecuzioni dei job
  • Azioni del job di rilevamento della superficie (file letti, scritti e così via)

Metadati

Informazioni estratte dai dati utente dal sistema di rilevamento. Ad esempio, nome del bucket Cloud Storage, proprietà del set di dati BigQuery, schema delle tabelle BigQuery figlio e così via.

Esistono due tipi di metadati:

  • Metadati tecnici come lo schema
  • Metadati operativi come statistiche dei dati (numero totale degli oggetti e dimensioni in Cloud Storage)

Metriche

Le metriche rappresentano le metriche di Stackdriver esposte come API pubblica da Dataplex, che possono essere utilizzate dagli utenti per configurare avvisi di Stackdriver o visualizzare tramite grafici. Consulta Dataplex Cloud Monitoring per ulteriori informazioni su metriche specifiche di Dataplex.

Propagazione

La modifica di determinate configurazioni di risorse avvia un processo in background asincrono per riconciliare lo stato delle risorse gestite con quanto specificato dall'utente. Ad esempio, la configurazione di sicurezza specificata su un lake deve essere propagata al criterio IAM di potenzialmente migliaia di risorse gestite (bucket/set di dati) in quel lake. Non succede immediatamente quando viene richiamata l'API. Questo processo è denominato propagazione.

Lo stato della propagazione sarà indicato dai campi di stato pertinenti e gli errori verranno segnalati tramite azioni.

Risorsa

Risorsa Dataplex

Risorse Google Cloud definite dal servizio Dataplex, come lake, zona dati e asset.

Risorsa secondaria

Figlio di una risorsa gestita. Ad esempio, oggetti Cloud Storage o tabelle/routine/modelli BigQuery. L'amministrazione dei criteri delle risorse secondarie non viene eseguita direttamente tramite Dataplex, tuttavia il suo criterio effettivo viene influenzato da ciò che viene ereditato dall'elemento padre.

Risorsa gestita

Risorse Google Cloud che possono essere amministrate e rilevate tramite Dataplex. Attualmente, bucket Cloud Storage e set di dati BigQuery. Una risorsa gestita può appartenere a un progetto diverso dal lake, ma deve appartenere alla stessa organizzazione.

Spec

Specifica fornita dall'utente. Ad esempio:

  • Le specifiche di sicurezza consentono di specificare la configurazione di sicurezza per lake/zona/asset.
  • La specifica di una risorsa per un asset specifica un puntatore alla risorsa gestita (bucket/set di dati).
  • La specifica di rilevamento consente di specificare la configurazione di rilevamento di un asset.

Stato

Rappresenta lo stato della specifica fornita dall'utente. Ad esempio:

  • Lo stato di sicurezza rappresenta lo stato della propagazione del criterio di sicurezza (ad esempio una specifica di sicurezza) nei bucket/set di dati sottostanti.
  • Lo stato della risorsa rappresenta lo stato della risorsa gestita (ok / non trovata/autorizzazione negata e così via) specificato nella specifica della risorsa.
  • Lo stato di rilevamento rappresenta lo stato del job di rilevamento, basato sulle specifiche di rilevamento.

Tabella

Tabella logica (righe e colonne) con uno schema ben definito (tipi e nomi di colonna) supportato dai dati (o da un loro sottoinsieme) in una risorsa gestita. Ad esempio, una tabella può essere supportata da un sottoinsieme di oggetti Cloud Storage in un bucket Cloud Storage o da una tabella BigQuery nel set di dati BigQuery.

  • Le tabelle prima di tutto vengono visualizzate in Dataproc Metastore, Data Catalog e BigQuery (registrazione dei metadati). Le tabelle non verranno visualizzate a valle se il rilevamento o la pubblicazione nel sistema downstream non sono abilitati. Ad esempio, le tabelle rilevate dai dati utente in Cloud Storage non verranno visualizzate in BigQuery se la pubblicazione su BigQuery non è abilitata.
  • Scoperto dal sistema di scoperta. Non può essere creato dall'utente.
  • I nomi delle tabelle vengono generati per essere brevi e significativi, in modo che sia facile eseguire query. I nomi contengono tre parti, [Prefix_]table root path[_Sequence number].

Zona

Un container logico di una o più risorse di dati creati all'interno di un lake. Una zona dati può essere utilizzata per modellare le unità aziendali all'interno di un'organizzazione (ad esempio, vendite e operazioni). Le zone dati modellano anche il percorso dei dati o l'idoneità al consumo.

Zona non elaborata

Una zona dati contenente dati che richiedono ulteriore elaborazione prima di essere considerata generalmente pronta per i carichi di lavoro di analisi e consumo.

Zona organizzata

Una zona dati contenente dati considerati pronti per un maggiore consumo e carichi di lavoro di analisi. I dati strutturati curati archiviati in Cloud Storage devono essere conformi a determinati formati file (Parquet, Avro e ORC) e organizzati in un layout di directory compatibile con Hive.

Che cosa succede dopo?