Dati rilevati

Questa guida spiega come abilitare e utilizzare Dataplex Scoperta. Scansioni ed estrazioni del rilevamento i metadati dai dati di un data lake e li registra Dataproc Metastore, BigQuery e Data Catalog per come analisi, ricerca ed esplorazione.

Panoramica

Per ogni asset Dataplex con il rilevamento abilitato, Dataplex fa quanto segue:

  • Esegue la scansione dei dati associati all'asset.
  • Raggruppa i file strutturati e semistrutturati in tabelle.
  • Raccoglie metadati tecnici, come nome della tabella, schema e definizione della partizione.

Per dati non strutturati, come immagini e video, Dataplex Il rilevamento rileva e registra automaticamente gruppi di file la condivisione di tipi di contenuti multimediali come set di file. Ad esempio, se gs://images/group1 contiene immagini GIF e gs://images/group2 contiene immagini JPEG, Dataplex Discovery rileva e registra due set di file. Per i dati strutturati, come Avro, Discovery rileva i file solo se si trovano in cartelle che contengono lo stesso formato dei dati e lo stesso schema.

Le tabelle e i set di file rilevati sono registrati in Data Catalog per ricerca e scoperta. Le tabelle vengono visualizzate in Dataproc Metastore come tabelle Hive e in BigQuery come tabelle esterne, in modo che i dati viene resa automaticamente disponibile per l'analisi.

Discovery supporta i seguenti modelli strutturati e semistrutturati formati dei dati:

Il rilevamento supporta il seguente formato di compressione per dati strutturati e semistrutturati:

  • Compressione interna per questi formati:

    Compressione Esempio di estensione del file Formato supportato
    gzip .gz.parquet Parquet
    lz4 .lz4.parquet Parquet
    Snappy .snappy.parquet Parquet, ORC, Avro
    lzo .lzo.parquet Parquet, ORC
  • Compressione esterna per file JSON e CSV:

    • gzip
    • bzip2

Configurazione rilevamento

Il rilevamento è abilitato per impostazione predefinita quando crei una nuova una zona o un asset. Puoi disattivare il rilevamento a livello di zona o di asset.

Quando crei una zona o un asset, puoi scegliere di ereditare Impostazioni di rilevamento a livello di zona o override Impostazioni di rilevamento a livello di asset.

Di seguito sono riportate le opzioni di configurazione del rilevamento disponibili a livello di zona e di asset:

  • Rilevamento attivato e disattivato.

  • Pianificazione del rilevamento: questa opzione può essere impostata su una pianificazione predefinita automatica, ad esempio oraria o giornaliera oppure una pianificazione personalizzata definita da cron formato. I nuovi asset vengono analizzati quando vengono aggiunti. Per ulteriori informazioni consulta Configurazione di pianificazioni cron. Opzione consigliata: pianifica il rilevamento in modo che venga eseguito ogni ora o meno spesso.

  • Pattern di inclusione o esclusione: definisci i file da includere o escludere Scansioni di rilevamento, utilizzando pattern glob nei tag di inclusione o escludi percorso. Ad esempio, se vuoi escludere gs://test_bucket/foo/.. da rilevamento, inserisci **/foo/* come percorso di esclusione. Virgolette causa errori. Assicurati di inserire **/foo/* anziché "**/foo/*". Questa funzione è disponibile solo per gli asset Cloud Storage. Quando entrambi i pattern di inclusione ed esclusione esistono contemporaneamente, i pattern di esclusione applicati per primi.

  • Specifiche JSON o CSV: consente di fornire ulteriori informazioni. sui dati semistrutturati, come CSV e JSON, per migliorare l'accuratezza Risultati della scoperta.

    • Per i file CSV, puoi fornire uno dei seguenti valori:

      • Delimitatore: questo campo accetta un carattere, ad eccezione di \r e \n. Se viene specificato più di un carattere, solo il primo carattere . Se non viene specificato, il rilevamento utilizza una virgola come delimitatore.

      • Numero di righe di intestazione: questo campo accetta il valore 0 o 1. Il valore predefinito è 0. Quando il valore è 0, il rilevamento esegue l'inferenza dell'intestazione e, se viene rilevata un'intestazione, estrae i nomi delle colonne dall'intestazione e reimposta il valore su 1.

      • Codifica: questo campo accetta nomi di codifica di stringhe, come UTF-8, US-ASCII o ISO-8859-1. Se non viene specificato nulla, viene utilizzato UTF-8 come per impostazione predefinita.

      • Disabilita l'inferenza del tipo: questo campo accetta un valore booleano. È è impostata su false per impostazione predefinita. Per i dati CSV, se disabiliti l'inferenza del tipo, tutte le colonne sono registrate come stringhe.

    • Per i file JSON, puoi fornire uno qualsiasi dei seguenti elementi:

      • Codifica: questo campo accetta nomi di codifica di stringhe, come UTF-8, US-ASCII o ISO-8859-1. Se non viene specificato nulla, viene utilizzato UTF-8 come predefinita.

      • Disabilita l'inferenza del tipo di dati: questo campo accetta un valore booleano. È è impostata su false per impostazione predefinita. Per i dati JSON, se disabiliti l'inferenza dei tipi, tutte le colonne sono registrate come tipi primitivi (stringa, numero o booleano).

Pubblica metadati

Quando crei una zona dati nel lake Dataplex, Dataplex crea un set di dati BigQuery nel progetto contenente il lake. Dataplex pubblica le tabelle in quel set di dati per le tabelle rilevate nei bucket Cloud Storage aggiunti all'account la zona dati come asset. Il set di dati è definito metadati pubblicazione di set di dati corrispondente alla zona.

Ogni zona dati Dataplex è mappata a un set di dati BigQuery o un database in Dataproc Metastore, in cui le informazioni sui metadati vengono rese automaticamente disponibili.

Puoi modificare i metadati a rilevamento automatico come il nome della tabella o lo schema, utilizzando l'API dei metadati Dataplex.

Visualizza le tabelle e i set di file rilevati

Puoi cercare tabelle e set di file rilevati in Dataplex Visualizzazione Ricerca nella console Google Cloud.

Apri la Ricerca

Per risultati di ricerca più precisi, usa filtri specifici di Dataplex, ad esempio nomi di lake e zone dati. I primi 50 elementi per facet sono visualizzato nell'elenco dei filtri. Puoi trovare eventuali elementi aggiuntivi utilizzando casella di ricerca.

Ogni voce contiene metadati tecnici e operativi dettagliati.

Dalla pagina dei dettagli della voce, puoi eseguire query sulla tabella in BigQuery e visualizzare i dettagli di registrazione di Dataproc Metastore corrispondenti.

Se una tabella Cloud Storage può essere pubblicata in BigQuery come tabella esterna, puoi vedere quanto segue nella visualizzazione dei dettagli delle voci:

  • Riferimenti delle tabelle esterne BigQuery
  • Un pulsante Apri in BigQuery per iniziare ad analizzare i dati in BigQuery.

Le voci dei metadati Dataplex sono direttamente visibili e disponibile per la ricerca in Data Catalog. Per saperne di più, consulta la documentazione di riferimento sulla ricerca di Data Catalog.

Tutte le voci rilevate possono essere visualizzate tramite l'API dei metadati Dataplex.

Azioni di rilevamento

Il rilevamento genera le seguenti azioni dell'amministratore ogni volta che e i problemi relativi ai dati vengono rilevati durante le analisi.

Formato dei dati non valido

Le azioni includono:

  • Formato dei dati incoerente in una tabella. Ad esempio, file di formati diversi esistono con lo stesso prefisso della tabella.

  • Formato dei dati non valido nelle zone curate (dati non nei formati Avro, Parquet o ORC).

Schema incompatibile

Le azioni includono:

  • Uno schema rilevato dal rilevamento non è compatibile con schema di tabella attivo nell'API di metadati in Dataproc Metastore. Lo schema A e lo schema B non sono compatibili se:

    • A e B condividono campi con lo stesso nome, ma con nomi diversi e incompatibili tipi di dati. Ad esempio stringa e numero intero.

    • A e B non hanno campi sovrapposti.

    • A e B è presente almeno un campo per cui non è possibile impostare valori null non trovato nell'altro schema.

  • Deviazione dello schema rispetto a uno schema gestito dall'utente nella zona organizzata.

Definizione partizione non valida

Le azioni includono:

  • Nome delle partizioni incoerente. Ad esempio: gs://sales_data/year=2020/month=10/day=01 e gs://sales_data/year=2020/region=us.

  • Denominazione delle partizioni in stile non Hive nella zona dati selezionata. Per esempio, gs://sales_data/2020/10/01 invece di gs://sales_data/year=2020/month=10/day=01.

Dati mancanti

Le azioni includono:

  • Nella zona dati selezionata, vengono visualizzati i dati sottostanti di una tabella registrata il set di file non esiste più. In altre parole, una tabella o un set di file della zona organizzata rilevati e registrati, ma in seguito i relativi dati sottostanti sono stati eliminati. Puoi risolvere il problema reintegrando i dati o eliminando la voce dei metadati.

Risolvi le azioni di rilevamento

I dati con azioni vengono controllati dalle scansioni di rilevamento successive. Una volta risolto il problema che attiva l'azione, l'azione viene risolta automaticamente con la successiva scansione di rilevamento pianificata.

Altre azioni

Oltre alle precedenti azioni di rilevamento, ci sono tre Altri tipi di azioni relative allo stato delle risorse e ai criteri di sicurezza le propagazione in Dataplex.

  • Risorsa mancante: non è stato trovato il bucket o il set di dati sottostante corrispondenti a una risorsa esistente.

  • Risorsa non autorizzata: Dataplex non dispone di risorse sufficienti. autorizzazioni per eseguire il rilevamento o applicare criteri di sicurezza al bucket o al set di dati gestito da Dataplex

  • Problemi con la propagazione dei criteri di sicurezza: criteri di sicurezza specificati per non è stato possibile propagare un lake, una zona o un asset specifici bucket o set di dati sottostanti. Mentre tutte le altre azioni si trovano a livello di risorsa questo tipo di azione potrebbe essere aumentata a livello di lake, zona e asset.

Questi tipi di azioni vengono risolti automaticamente quando la risorsa sottostante o che gli errori di configurazione della sicurezza vengano risolti.

Domande frequenti

Cosa devo fare se lo schema dedotto dal rilevamento non è corretto?

Se lo schema dedotto è diverso da quello previsto per una determinata tabella, può sostituire lo schema dedotto aggiornando i metadati utilizzando API metadata di Google. Assicurati di impostare userManaged a true in modo che la modifica non venga sovrascritta nelle successive Scansioni di rilevamento.

Come faccio a escludere i file da una scansione di rilevamento?

Per impostazione predefinita, Discovery esclude alcuni tipi di file dalla scansioni tra cui:

  • _SUCCESS
  • _started
  • _committed
  • _metadata, _METADATA, _Metadata
  • _common_metadata, _COMMON_METADATA
  • File che iniziano con README o readme
  • Directory che iniziano con base_, delta_, delete_delta_, bucket_, seguito da un numero
  • Directory che iniziano con .

Puoi specificare ulteriori pattern di inclusione o esclusione utilizzando il metodo Configurazione del rilevamento a livello di zona o asset oppure tramite l'API dei metadati.

Cosa devo fare se il raggruppamento delle tabelle rilevato dal rilevamento è troppo granulare?

Se le tabelle rilevate dal rilevamento sono a un livello più granulare rispetto al percorso principale della tabella; ad esempio, ogni singola la partizione viene registrata come tabella, i motivi potrebbero essere diversi:

  • Ci sono differenze di formato, ad esempio un mix di file Avro e Parquet, in il percorso principale previsto della tabella, che suddividi la tabella in raggruppamenti più piccoli.

  • Nella tabella prevista esistono diversi tipi di incompatibilità di schema principale, che suddividono la tabella in raggruppamenti più piccoli.

Puoi risolvere il problema in uno dei seguenti modi:

  • Correggi le differenze di formato o schema in modo che tutti i file nella stessa tabella root sono in un formato coerente e con uno schema compatibile.

  • Escludere file eterogenei utilizzando la configurazione di esclusione del pattern come parte della configurazione della zona / della risorsa o dell'API dei metadati.

Dopo aver eseguito uno dei passaggi correttivi, nel prossimo Ricerca rilevamento, si verifica quanto segue:

  • Le tabelle di livello inferiore esistenti vengono rimosse automaticamente l'API dei metadati Dataplex, BigQuery, Dataproc Metastore e Data Catalog.
  • Viene invece creata una nuova tabella di livello superiore con il percorso principale previsto della tabella.

Come si specificano i nomi delle tabelle?

Puoi specificare i nomi delle tabelle utilizzando l'API metadata.

Che cosa succede se creo manualmente le tabelle in Dataproc Metastore o BigQuery?

Se il rilevamento è abilitato per un determinato asset, non è necessario registrare manualmente le voci in Dataproc Metastore in BigQuery.

Puoi definire manualmente il nome della tabella, lo schema e le definizioni delle partizioni, mentre la disattivazione di Dataplex Discovery. In alternativa, esegui queste operazioni:

  1. Creare una tabella specificando solo le informazioni richieste, come il percorso principale della tabella.
  2. Usa Dataplex Discovery per completare il resto i metadati, ad esempio le definizioni di schema e partizione.
  3. Mantieni aggiornati i metadati.

Cosa devo fare se la mia tabella non viene visualizzata in BigQuery?

Sebbene i metadati Dataplex siano tutti registrati centralmente l'API Metadata, solo le tabelle Cloud Storage compatibili BigQuery vengono pubblicati in BigQuery come esterni tabelle. Nell'ambito dei dettagli delle voci di tabella nella l'API metadata, puoi trovare un indicatore di compatibilità BigQuery che indica quali entità vengono pubblicate in BigQuery e perché.

Passaggi successivi