Informazioni sulla profilazione dei dati

La profilazione dei dati Dataplex consente di identificare caratteristiche statistiche delle colonne in BigQuery tabelle. Queste informazioni ti aiutano a comprendere e analizzare i tuoi dati in modo più efficace.

Informazioni quali valori di dati tipici, distribuzione dei dati e conteggi di valori nulli possono accelerare l'analisi. Se combinata con la classificazione dei dati, la profilazione dei dati può rilevare classi di dati o informazioni sensibili che, a loro volta, possono consentire l'accesso e i criteri di controllo.

Dataplex utilizza queste informazioni anche per consigliare regole per i controlli della qualità dei dati.

Modello concettuale

Dataplex consente di comprendere meglio il profilo dei tuoi dati tramite creando un'analisi di profilazione dei dati.

Il seguente diagramma mostra come Dataplex analizza i dati per generare report caratteristiche statistiche.

Una scansione di profilazione dei dati analizza i dati della tabella per generare report sulle caratteristiche statistiche.

Un'analisi della profilazione dei dati è associata a una tabella BigQuery analizza la tabella per generare i risultati della profilazione dei dati. Una profilazione dei dati la scansione supporta diverse opzioni di configurazione.

Opzioni di configurazione

Questa sezione descrive le opzioni di configurazione disponibili per l'esecuzione analisi di profilazione dei dati.

Opzioni di programmazione

Puoi pianificare una scansione di profilazione dei dati con una frequenza definita o su richiesta tramite l'API o la console Google Cloud.

Ambito

Nell'ambito della specifica di un'analisi di profilazione dei dati, puoi specificare l'ambito di un job come una delle seguenti opzioni:

  • Tabella completa: l'intera tabella viene analizzata nella scansione di profilazione dei dati. Il campionamento, i filtri riga e i filtri colonna vengono applicati all'intera tabella prima del calcolo delle statistiche di profilazione.

  • Incrementale: i dati incrementali specificati vengono analizzati nella scansione del profilo dei dati. Specifica nella tabella una colonna Date o Timestamp da utilizzare utilizzata come incremento. In genere, si tratta della colonna su cui è partizionata la tabella. Campionamento, filtri di riga e filtri di colonna vengono applicati alla i dati incrementali prima del calcolo delle statistiche di profilazione.

Filtra dati

Puoi filtrare i dati da sottoporre a scansione per il profiling utilizzando i filtri di riga e di colonna. L'utilizzo dei filtri ti consente di ridurre i tempi di esecuzione e i costi, nonché di escludere i dati sensibili e inutili.

  • Filtri riga: i filtri riga ti consentono di concentrarti sui dati di un determinato periodo di tempo o di un segmento specifico, ad esempio una regione. Ad esempio, puoi escludere i dati con un timestamp precedente a una determinata data.

  • Filtri colonna: i filtri colonna ti consentono di includere ed escludere colonne specifiche dalla tabella per eseguire la scansione del profilo dei dati.

Dati di esempio

Dataplex ti consente di specificare una percentuale di record dei tuoi dati da campionare per eseguire una scansione di profilazione dei dati. Creazione in corso... le analisi di profilazione dei dati su un campione di dati più ridotto possono ridurre i tempi di esecuzione e i costi dell'esecuzione di query sull'intero set di dati.

Più analisi di profilazione dei dati

Dataplex consente di creare più analisi di profilazione dei dati alla volta utilizzando la console Google Cloud. Puoi selezionare fino a 100 tabelle da un set di dati e creare una scansione di profilazione dei dati per ogni set di dati. Scopri di più.

Esporta i risultati della scansione in una tabella BigQuery

Puoi esportare i risultati dell'analisi della profilazione dei dati in una tabella BigQuery per ulteriori analisi. Per personalizzare i report, puoi collegare dei dati della tabella BigQuery in una dashboard di Looker. Puoi creare un report aggregato utilizzando la stessa tabella dei risultati in più analisi.

Risultati della profilazione dei dati

I risultati della profilazione dei dati includono i seguenti valori:

Tipo di colonna Risultati della profilazione dei dati
Colonna numerica
  • Percentuale di valori null.
  • Percentuale di valori univoci (distinti) approssimativi.
  • I 10 valori più comuni nella colonna. Può essere inferiore a 10 se il numero di valori univoci nella colonna è inferiore a 10 (i valori null non sono inclusi). Per ciascuno di questi valori più comuni, viene visualizzata la percentuale di occorrenza nei dati sottoposti a scansione nella scansione corrente.
  • Media, deviazione standard, minimo, quartile inferiore approssimativo, mediana approssimativa, quartile superiore approssimativo e valori massimi.
Colonna di stringhe
  • Percentuale di valori nulli.
  • Percentuale di valori univoci (distinti) approssimativi.
  • I 10 valori più comuni della colonna, che possono essere meno di 10 se il numero di valori univoci nella colonna è inferiore a 10.
  • Lunghezza media, minima e massima della stringa.
Altre colonne non nidificate (data, ora, timestamp, binario e così via)
  • Percentuale di valori nulli.
  • Percentuale di valori univoci (distinti) approssimativi.
  • Primi 10 valori più comuni nella colonna, che possono essere inferiori a 10 se il numero di valori univoci nella colonna è inferiore a 10.
Tutte le altre colonne di tipo di dati nidificate o complesse (ad esempio Record, Array, JSON) o qualsiasi colonna con modalità ripetuta.
  • Percentuale di valori null.

I risultati includono il numero di record sottoposti a scansione in ogni esecuzione.

Rapporti e monitoraggio

Puoi monitorare e analizzare i risultati della definizione del profilo dei dati utilizzando i seguenti metodi e report:

  • Report pubblicati con la tabella di origine nelle pagine BigQuery e Data Catalog

    Se hai configurato un'analisi di profilazione dei dati per pubblicare i risultati nel Nelle pagine di BigQuery e Data Catalog nel Console Google Cloud, potrai visualizzare l'ultima analisi della profilazione dei dati restituisce queste pagine nella scheda Profilo dati, da qualsiasi progetto.

    Report pubblicati.

  • Report storico per job in Dataplex

    Nella pagina Profilo di Dataplex, puoi visualizzare i report dettagliati per i job più recenti e storici. Include il profilo a livello di colonna e la configurazione utilizzata.

    Report storico per job.

  • Scheda Analisi

    Nella pagina Profilo di Dataplex, puoi utilizzare la scheda Analisi per visualizzare le tendenze di una determinata statistica di una colonna in più job di profilo. Ad esempio, se hai una scansione incrementale, puoi vedere come la media di un valore è in tendenza nel tempo.

    Scheda Analisi.

  • Crea la tua dashboard o le tue analisi

    Se hai configurato un'analisi di profilazione dei dati per esportare o salvare i risultati in un tabella BigQuery, puoi creare le tue dashboard come Looker Studio.

Limitazioni

  • I risultati della profilazione dei dati non vengono pubblicati in Data Catalog come i tag.
  • La profilazione dei dati è supportata per le tabelle BigQuery con tutte le colonne tranne BIGNUMERIC. Una scansione creata per una tabella con una colonna BIGNUMERIC genera un errore di convalida e non viene creata correttamente.
  • Le tabelle BigQuery da sottoporre a scansione devono avere al massimo 300 colonne.

Prezzi

  • Dataplex utilizza lo SKU di elaborazione premium per addebitare la profilazione dei dati. Per ulteriori informazioni, vedi Prezzi.

  • La pubblicazione dei risultati sulla profilazione dei dati in Data Catalog non è ancora attiva disponibili. Quando sarà disponibile, ti verrà addebitata la stessa tariffa Prezzi di archiviazione dei metadati del catalogo. Per ulteriori informazioni, consulta la sezione Prezzi.

  • L'elaborazione premium di Dataplex per la profilazione dei dati viene fatturata in base secondo con un minimo di un minuto.

  • Non ti viene addebitato alcun costo per le analisi di profilazione non riuscite.

  • L'addebito dipende dal numero di righe, dal numero di colonne, dalla quantità di dati analizzati, dalle impostazioni di partizione e clustering della tabella e dalla frequenza della scansione.

  • Esistono diverse opzioni per ridurre il costo delle analisi di profilazione dei dati:

    • Campionamento
    • Scansioni incrementali
    • Filtro delle colonne
    • Filtro delle righe
  • Per separare gli addebiti per la profilazione dei dati dagli altri addebiti nello SKU di elaborazione premium di Dataplex, nel report Fatturazione cloud, utilizza l'etichetta goog-dataplex-workload-type con il valore DATA_PROFILE.

  • Per filtrare gli addebiti aggregati, utilizza le seguenti etichette:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Passaggi successivi