Glossario di Dataplex

Dataplex unifica il percorso end-to-end per l'analisi con un e la gestione centralizzata di dati e servizi. Questo glossario intende definire i termini utilizzati all'interno del sistema di gestione.

Elenco di glossario

Azione

Problemi risolvibili dagli utenti. Ad esempio:

  • La propagazione dei criteri di sicurezza non è riuscita a causa di un gruppo di sicurezza fornito dall'utente non esistente.
  • Dataplex non può accedere a una risorsa gestita.
  • L'attività di discovery non è riuscita per vari motivi (che possono essere risolti dall'utente). Ciò può essere dovuto a problemi relativi ai dati utente, ad esempio formati di dati non validi o incompatibili lo schema tra le partizioni, la denominazione delle partizioni incoerente e così via.

Le azioni vengono generate automaticamente da Dataplex. Alcune azioni sono cancellate automaticamente da Dataplex quando il problema di base è vengano risolti dall'utente. Altre azioni devono essere contrassegnate esplicitamente come risolte dall'utente.

Ad esempio, dopo che l'utente ha gestito le azioni di rilevamento, deve chiamare l'API Dataplex per contrassegnarle come risolte in modo che il sistema di rilevamento possa annullare la messa in pausa e pianificare un'esecuzione immediata del rilevamento.

Asset

L'asset rappresenta una singola risorsa gestita (bucket/set di dati) Dataplex. È anche un segnaposto per varie configurazioni la risorsa e i sottosistemi gestiti (rilevamento, amministrazione dei criteri e così via) che vi agiscono.

BigQuery

BigQuery è la piattaforma di Google Cloud, completamente gestita, con capacità nell'ordine dei petabyte conveniente che consente di eseguire analisi su di grandi dimensioni di dati quasi in tempo reale.

Con BigQuery, non è necessario l'infrastruttura da configurare o gestire, per consentirti di concentrarti sulla ricerca insight utilizzando SQL standard e sfruttando i modelli di prezzo flessibili tra opzioni on demand e a costo fisso. Scopri di più

Dati

Dati utente all'interno di una risorsa gestita. Ad esempio, oggetti Cloud Storage in un bucket o righe di tabelle BigQuery in un set di dati. Nel caso di Cloud Storage, sono unità immutabili di dati utente. Nel caso di un modello BigQuery le righe all'interno delle tabelle figlio sono considerate dati utente.

Data Catalog

Data Catalog è un servizio di gestione dei metadati completamente gestito e scalabile che consente alle organizzazioni di rilevare, gestire e comprendere rapidamente tutti i loro dati in Google Cloud. Scopri di più

Account di servizio Dataplex

Rappresenta un agente di servizio, un tipo di account di servizio che esegue varie azioni per conto di Dataplex. Ad esempio, il sistema di rilevamento e il criterio di amministrazione si affidano all'agente di servizio.

L'agente di servizio per svolgere il proprio compito ha bisogno di varie autorizzazioni IAM per le risorse e i progetti gestiti dall'utente. Alcune vengono concesse automaticamente nell'ambito dell'attivazione di Dataplex in un progetto. Altro (ad esempio, collega un bucket da un altro progetto) devono essere concessi manualmente utente.

Dataproc Metastore

Dataproc Metastore è un servizio di metastore completamente gestito, ad alta disponibilità, con scalabilità automatica e riparazione automatica, nativo del software open source che semplifica notevolmente la gestione dei metadati tecnici. Il servizio Dataproc Metastore si basa su del metastore Apache Hive e funge da componente fondamentale per i data lake. Scopri di più

Discovery

Sottosistema responsabile della scansione dei dati utente e dell'estrazione dei metadati.

Gruppo di voci

Un gruppo di voci contiene voci. Un gruppo di voci è un insieme di voci correlate logicamente insieme ai criteri Identity and Access Management che specificano gli utenti che possono creare, modificare e visualizzare le voci all'interno di un gruppo.

Set di file

Un set di file è una voce all'interno di un gruppo di voci creato dall'utente. Viene definito un set di file in base a uno o più pattern di file che specificano un insieme di uno o più pattern di Cloud Storage . Le voci del set di file possono essere usate per organizzare e trovare file di Cloud Storage, e aggiungere metadati.

Lake

Un lake è un repository centralizzato per la gestione dei dati aziendali nell'organizzazione, distribuiti su molti progetti cloud e archiviati in una serie di servizi di archiviazione come Cloud Storage e BigQuery. La e le risorse collegate a un lake sono definite risorse gestite. I dati all'interno di queste risorse gestite possono essere strutturati o non strutturati.

Un lake fornisce agli amministratori dei dati gli strumenti per organizzare, proteggere e gestire dati su larga scala e fornisce a data scientist e data engineer un'interfaccia per cercare, scoprire, analizzare e trasformare facilmente i dati e e metadati associati.

Log

Log di Stackdriver forniti da Dataplex che gli utenti possono utilizzare per ottenere informazioni sul funzionamento del lake, eseguire il debug, impostare avvisi e così via. Ad esempio, log che:

  • Mostrare le azioni che richiedono attenzione
  • Modifiche ai metadati della scheda
  • Mostra un riepilogo delle esecuzioni dei job
  • Azioni dei job di rilevamento delle superfici (file letti, scritti e così via)

Metadati

Informazioni estratte dai dati utente dal sistema di discovery. Ad esempio: il nome del bucket Cloud Storage, le proprietà del set di dati BigQuery schema delle tabelle BigQuery figlio ecc.

Esistono due tipi di metadati:

  • Metadati tecnici come lo schema
  • Metadati operativi come statistiche dei dati (numero totale di oggetti e dimensioni in Cloud Storage)

Metriche

Le metriche rappresentano le metriche di Stackdriver esposte come API pubbliche da Dataplex, che può essere utilizzato dagli utenti per configurare avvisi di Stackdriver grafici. Per ulteriori informazioni su metriche specifiche di Dataplex, consulta Cloud Monitoring di Dataplex.

Propagazione

La modifica di determinate configurazioni delle risorse avvia un processo asincrono in background per riconciliare lo stato delle risorse gestite con quanto specificato dall'utente. Ad esempio, la configurazione di sicurezza specificata su un lake deve essere propagata al criterio IAM di migliaia di risorse gestite potenzialmente (bucket/set di dati) all'interno del lake. Non avviene immediatamente quando viene invocata l'API. Questo processo è noto come propagazione.

Lo stato della propagazione sarà indicato dall'istanza i campi di stato e gli errori verranno visualizzati tramite le azioni.

Risorsa

Risorsa Dataplex

Risorse Google Cloud definite dal servizio Dataplex, come lake, zona dati e asset.

Risorsa secondaria

Elemento secondario di una risorsa gestita. Ad esempio, oggetti Cloud Storage o BigQuery table/routine/models. L'amministrazione dei criteri delle risorse secondarie non viene eseguita direttamente tramite Dataplex, tuttavia, il suo criterio efficace viene influenzato da ciò che viene ereditato dall'elemento principale.

Risorsa gestita

Risorse Google Cloud che possono essere amministrate e rilevate tramite Dataplex. Attualmente, i bucket Cloud Storage e i set di dati BigQuery. R risorsa gestita può appartenere a un progetto diverso dal lake; tuttavia, devono appartenere alla stessa organizzazione.

Spec

Specifica fornita dall'utente. Ad esempio:

  • La specifica di sicurezza specifica la configurazione di sicurezza per lake/zona/asset.
  • La specifica della risorsa per un asset specifica un puntatore alla risorsa gestita (bucket/set di dati).
  • La specifica di rilevamento specifica la configurazione del rilevamento per un asset.

Stato

Rappresenta lo stato della specifica fornita dall'utente. Ad esempio:

  • Lo stato di sicurezza rappresenta lo stato della propagazione del criterio di sicurezza (ad esempio una specifica di sicurezza) ai bucket/set di dati sottostanti.
  • Lo stato della risorsa rappresenta lo stato della risorsa gestita (ok/non trovata/autorizzazione negata e così via) specificato nella specifica della risorsa.
  • Lo stato di rilevamento rappresenta lo stato del job di rilevamento, generato in base alle specifiche del rilevamento.

Tabella

Tabella logica (righe e colonne) con uno schema ben definito (nomi e tipi di colonne) supportato da dati (o sottoinsiemi di dati) in una risorsa gestita. Ad esempio, un può essere supportata da un sottoinsieme di oggetti Cloud Storage in un ambiente o una tabella BigQuery nel set di dati BigQuery.

  • Le tabelle come concetto di primo livello vengono visualizzate in Dataproc Metastore, Data Catalog e BigQuery (registrazione dei metadati). Le tabelle non verranno visualizzate a valle se la scoperta o la pubblicazione nel sistema a valle non è attivata. Ad esempio, tabelle rilevate dall'utente in Cloud Storage non verranno mostrati a BigQuery La pubblicazione in BigQuery non è abilitata.
  • Scoperto dal sistema di rilevamento. Non può essere creato dall'utente.
  • I nomi delle tabelle vengono generati in modo che siano brevi e significativi, in modo da essere facili da eseguire query. I nomi contengono tre parti, [Prefix_]table root path[_Sequence number].

Zona

Un contenitore logico di una o più risorse di dati create all'interno di un lake. Una zona di dati può essere utilizzata per modellare le unità aziendali all'interno di un'organizzazione (ad es. vendite rispetto a operazioni). Le zone dati modellano anche il percorso dei dati o la loro idoneità al consumo.

Zona non elaborata

Una zona di dati che contiene dati che richiedono un'ulteriore elaborazione prima di essere considerati generalmente pronti per il consumo e i carichi di lavoro di analisi.

Zona organizzata

Una zona di dati contenente dati considerati pronti per carichi di lavoro di analisi e consumo più ampi. Dati strutturati selezionati e archiviati in Cloud Storage deve essere conforme a determinati formati file (Parquet, Avro e ORC) e organizzati in un layout di directory compatibile con hive.

Passaggi successivi