Informazioni sulla profilazione dei dati

La profilazione dei dati Dataplex consente di identificare le caratteristiche statistiche comuni delle colonne nelle tabelle BigQuery. Queste informazioni ti aiutano a comprendere e analizzare i dati in modo più efficace.

Informazioni come i valori tipici dei dati, la distribuzione dei dati e i conteggi null possono accelerare l'analisi. Se combinata con la classificazione dei dati, la profilazione dei dati può rilevare classi di dati o informazioni sensibili che, a loro volta, possono abilitare i criteri di controllo dell'accesso.

Dataplex utilizza queste informazioni anche per consigliare le regole per i controlli di qualità dei dati.

Modello concettuale

Dataplex consente di comprendere meglio il profilo dei tuoi dati creando un'analisi di profilazione dei dati.

Il seguente diagramma mostra in che modo Dataplex analizza i dati per generare report sulle caratteristiche statistiche.

Un'analisi della profilazione dei dati analizza i dati della tabella per generare report sulle caratteristiche statistiche.

Un'analisi sulla profilazione dei dati viene associata a una tabella BigQuery e analizza la tabella per generare i risultati della profilazione dei dati. L'analisi della profilazione dei dati supporta diverse opzioni di configurazione.

Opzioni di configurazione

Questa sezione descrive le opzioni di configurazione disponibili per eseguire le analisi della profilazione dei dati.

Opzioni di programmazione

Puoi pianificare un'analisi di profilazione dei dati con una frequenza definita oppure on demand tramite l'API o la console Google Cloud.

Ambito

Nell'ambito della specifica di una scansione di profilazione dei dati, puoi specificare l'ambito di un job in una delle seguenti opzioni:

  • Tabella completa: l'intera tabella viene analizzata durante l'analisi della profilazione dei dati. Il campionamento, i filtri di riga e i filtri di colonna vengono applicati all'intera tabella prima di calcolare le statistiche di profilazione.

  • Incrementale: i dati incrementali da te specificati vengono analizzati nell'analisi del profilo dati. Specifica nella tabella una colonna Date o Timestamp da utilizzare come incremento. In genere, questa è la colonna in cui è partizionata la tabella. Il campionamento, i filtri di riga e i filtri di colonna vengono applicati ai dati incrementali prima di calcolare le statistiche di profilazione.

Filtra dati

Puoi filtrare i dati da analizzare per la profilazione utilizzando i filtri di riga e i filtri di colonna. L'uso dei filtri consente di ridurre i tempi e i costi di esecuzione ed escludere i dati sensibili e inutili.

  • Filtri di riga: i filtri di riga ti consentono di concentrarti sui dati di un determinato periodo di tempo o di un segmento specifico, ad esempio una regione. Ad esempio, puoi filtrare i dati con un timestamp precedente a una determinata data.

  • Filtri di colonna: i filtri di colonna consentono di includere ed escludere colonne specifiche dalla tabella per eseguire l'analisi della profilazione dei dati.

Dati di esempio

Dataplex consente di specificare una percentuale di record dai dati da campionare per eseguire un'analisi di profilazione dei dati. La creazione di scansioni di profilazione dei dati su un campione più piccolo di dati può ridurre i tempi di esecuzione e i costi dell'esecuzione di query sull'intero set di dati.

Scansioni di profilazione dei dati di più dati

Dataplex consente di creare più analisi di profilazione dei dati alla volta utilizzando la console Google Cloud. Puoi selezionare fino a 100 tabelle da un set di dati e creare un'analisi di profilazione dei dati per ogni set di dati. Scopri di più.

Esporta i risultati della scansione in una tabella BigQuery

Puoi esportare i risultati dell'analisi della profilazione dei dati in una tabella BigQuery per ulteriori analisi. Per personalizzare i report, puoi connettere i dati della tabella BigQuery a una dashboard di Looker. Puoi creare un report aggregato utilizzando la stessa tabella dei risultati in più analisi.

Risultati della profilazione dei dati

I risultati relativi alla profilazione dei dati includono i seguenti valori:

Tipo di colonna Risultati della profilazione dei dati
Colonna numerica
  • Percentuale di valori nulli.
  • Percentuale di valori univoci (distinti) approssimativi.
  • Primi 10 valori più comuni nella colonna. Può essere inferiore a 10 se il numero di valori univoci nella colonna è inferiore a 10 (i valori null non sono inclusi). Per ognuno di questi valori più comuni, viene visualizzata la percentuale della relativa occorrenza nei dati analizzati nell'analisi corrente.
  • Media, deviazione standard, quartile inferiore minima, approssimativa, mediana approssimativa, quartile superiore approssimativo e valori massimi.
Colonna Stringa
  • Percentuale di valori nulli.
  • Percentuale di valori univoci (distinti) approssimativi.
  • Primi 10 valori più comuni nella colonna, che possono essere inferiori a 10 se il numero di valori univoci nella colonna è inferiore a 10.
  • Lunghezza media, minima e massima della stringa.
Altre colonne non nidificate (data, ora, timestamp, programma binario e così via)
  • Percentuale di valori nulli.
  • Percentuale di valori univoci (distinti) approssimativi.
  • Primi 10 valori più comuni nella colonna, che possono essere inferiori a 10 se il numero di valori univoci nella colonna è inferiore a 10.
Tutte le altre colonne nidificate o complesse di tipi di dati (come Record, Array, JSON) o qualsiasi colonna in modalità ripetuta.
  • Percentuale di valori nulli.

I risultati includono il numero di record analizzati in ogni esecuzione.

Rapporti e monitoraggio

Puoi monitorare e analizzare i risultati della profilazione dei dati utilizzando i seguenti report e metodi:

  • Report pubblicati con la tabella di origine nelle pagine BigQuery e Data Catalog

    Se hai configurato un'analisi di profilazione dei dati per pubblicare i risultati nelle pagine BigQuery e Data Catalog nella console Google Cloud, puoi visualizzare i risultati più recenti dell'analisi di profilazione dei dati in queste pagine nella scheda Profilo dati di qualsiasi progetto.

    Report pubblicati.

  • Report Storico per job in Dataplex

    Nella pagina Profilo Dataplex puoi visualizzare i report dettagliati per i job più recenti e storici. Sono incluse le informazioni del profilo a livello di colonna e la configurazione utilizzata.

    Report storico per job.

  • Scheda Analisi

    Nella pagina Profilo Dataplex, puoi utilizzare la scheda Analisi per visualizzare le tendenze di una determinata statistica di una colonna in più job del profilo. Ad esempio, se esegui un'analisi incrementale, puoi visualizzare l'andamento nel tempo della media di un valore.

    Scheda Analisi.

  • Crea la tua dashboard o analisi

    Se hai configurato un'analisi di profilazione dei dati per esportare o salvare i risultati in una tabella BigQuery, puoi creare le tue dashboard utilizzando strumenti come Looker Studio.

Limitazioni

  • I risultati della profilazione dei dati non vengono pubblicati in Data Catalog come tag.
  • La profilazione dei dati è supportata per le tabelle BigQuery con tutti i tipi di colonna tranne BIGNUMERIC. Una scansione creata per una tabella con una colonna BIGNUMERIC genera un errore di convalida e non viene creata.
  • Le tabelle BigQuery da analizzare devono avere al massimo 300 colonne.

Prezzi

  • Dataplex utilizza lo SKU di elaborazione premium per addebitare i costi per la profilazione dei dati. Per ulteriori informazioni, vedi Prezzi.

  • La pubblicazione dei risultati della profilazione dei dati in Data Catalog non è ancora disponibile. Quando sarà disponibile, ti verrà addebitata la stessa tariffa dei prezzi di archiviazione dei metadati del catalogo. Per ulteriori informazioni, consulta la sezione Prezzi.

  • L'elaborazione premium di Dataplex per la profilazione dei dati viene fatturata al secondo con un minimo di un minuto.

  • Non ti viene addebitato alcun costo per le analisi di profilazione non riuscite.

  • L'addebito dipende dal numero di righe, dal numero di colonne, dalla quantità di dati analizzati, dalle impostazioni di partizionamento e clustering nella tabella e dalla frequenza della scansione.

  • Esistono diverse opzioni per ridurre il costo delle analisi della profilazione dei dati:

    • Sampling
    • Scansioni incrementali
    • Filtro delle colonne
    • Filtro delle righe
  • Per separare gli addebiti per la profilazione dei dati da altri addebiti nello SKU di elaborazione premium di Dataplex, utilizza l'etichetta goog-dataplex-workload-type con il valore DATA_PROFILE.

  • Per filtrare gli addebiti aggregati, utilizza le seguenti etichette:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Che cosa succede dopo?