La profilazione dei dati Dataplex consente di identificare le caratteristiche statistiche comuni delle colonne nelle tabelle BigQuery. Queste informazioni ti aiutano a comprendere e analizzare i tuoi dati in modo più efficace.
Informazioni quali valori di dati tipici, distribuzione dei dati e conteggi di valori nulli possono accelerare l'analisi. Se combinato con la classificazione dei dati, il profiling dei dati può rilevare classi di dati o informazioni sensibili che, a loro volta, possono attivare i criteri di controllo dell'accesso.
Dataplex utilizza queste informazioni anche per consigliare regole per i controlli di qualità dei dati.
Modello concettuale
Dataplex ti consente di comprendere meglio il profilo dei tuoi dati tramite la creazione di un'analisi di profilazione dei dati.
Il seguente diagramma mostra come Dataplex analizza i dati per generare report sulle caratteristiche statistiche.
Una scansione di profilazione dei dati è associata a una tabella BigQuery e la scansiona per generare i risultati della profilazione dei dati. Un'analisi di profilazione dei dati supporta diverse opzioni di configurazione.
Opzioni di configurazione
Questa sezione descrive le opzioni di configurazione disponibili per eseguire le analisi di profilazione dei dati.
Opzioni di programmazione
Puoi pianificare una scansione di profilazione dei dati con una frequenza definita o su richiesta tramite l'API o la console Google Cloud.
Ambito
Nell'ambito della specifica di un'analisi di profilazione dei dati, puoi specificare l'ambito di un job come una delle seguenti opzioni:
Tabella completa: l'intera tabella viene analizzata nella scansione di profilazione dei dati. Il campionamento, i filtri riga e i filtri colonna vengono applicati all'intera tabella prima del calcolo delle statistiche di profilazione.
Incrementale: i dati incrementali specificati vengono analizzati nella scansione del profilo dei dati. Specifica una colonna
Date
oTimestamp
nella tabella da utilizzare come incremento. In genere, si tratta della colonna su cui è partizionata la tabella. Il campionamento, i filtri riga e i filtri colonna vengono applicati ai dati incrementali prima del calcolo delle statistiche di profilazione.
Filtra dati
Puoi filtrare i dati da sottoporre a scansione per il profiling utilizzando i filtri di riga e di colonna. L'utilizzo dei filtri consente di ridurre i tempi di esecuzione e i costi, nonché di escludere i dati sensibili e inutili.
Filtri riga: i filtri riga ti consentono di concentrarti sui dati di un determinato periodo di tempo o di un segmento specifico, ad esempio una regione. Ad esempio, puoi escludere i dati con un timestamp precedente a una determinata data.
Filtri colonna: i filtri colonna ti consentono di includere ed escludere colonne specifiche dalla tabella per eseguire la scansione del profilo dei dati.
Dati di esempio
Dataplex ti consente di specificare una percentuale di record dei tuoi dati da campionare per eseguire una scansione di profilazione dei dati. La creazione di scansioni di profilazione dei dati su un campione di dati più piccolo può ridurre il tempo di esecuzione e il costo dell'esecuzione di query sull'intero set di dati.
Più analisi della profilazione dei dati
Dataplex ti consente di creare più analisi di profilazione dei dati contemporaneamente utilizzando la console Google Cloud. Puoi selezionare fino a 100 tabelle da un set di dati e creare una scansione di profilazione dei dati per ogni set di dati. Scopri di più.
Esporta i risultati della scansione in una tabella BigQuery
Puoi esportare i risultati della scansione del profilo dati in una tabella BigQuery per ulteriori analisi. Per personalizzare i report, puoi collegare i dati della tabella BigQuery a una dashboard di Looker. Puoi creare un report aggregato utilizzando la stessa tabella dei risultati per più scansioni.
Risultati della profilazione dei dati
I risultati della profilazione dei dati includono i seguenti valori:
Tipo di colonna | Risultati della profilazione dei dati |
---|---|
Colonna numerica |
|
Colonna di stringhe |
|
Altre colonne non nidificate (data, ora, timestamp, binario e così via) |
|
Tutte le altre colonne di tipo di dati nidificate o complesse (ad es. Record, Array, JSON) o qualsiasi colonna con modalità ripetuta. |
|
I risultati includono il numero di record sottoposti a scansione in ogni esecuzione.
Rapporti e monitoraggio
Puoi monitorare e analizzare i risultati della definizione del profilo dei dati utilizzando i seguenti metodi e report:
Report pubblicati con la tabella di origine nelle pagine BigQuery e Data Catalog
Se hai configurato una scansione del profilo dati per pubblicare i risultati nelle pagine BigQuery e Data Catalog della console Google Cloud, puoi visualizzare gli ultimi risultati della scansione del profilo dati in queste pagine nella scheda Profilo dati da qualsiasi progetto.
Report storico per job in Dataplex
Nella pagina Profilo di Dataplex, puoi visualizzare i report dettagliati per i job più recenti e storici. Sono incluse le informazioni sul profilo a livello di colonna e la configurazione utilizzata.
Scheda Analisi
Nella pagina Profilo di Dataplex, puoi utilizzare la scheda Analisi per visualizzare le tendenze di una determinata statistica di una colonna in più job di profilo. Ad esempio, se hai una scansione incrementale, puoi visualizzare l'andamento medio di un valore nel tempo.
Creare una dashboard o un'analisi personalizzata
Se hai configurato una scansione del profilo dei dati per esportare o salvare i risultati in una tabella BigQuery, puoi creare le tue dashboard utilizzando strumenti come Looker Studio.
Limitazioni
- I risultati della profilazione dei dati non vengono pubblicati in Data Catalog come tag.
- La profilazione dei dati è supportata per le tabelle BigQuery con tutti i tipi di colonna tranne
BIGNUMERIC
. Una scansione creata per una tabella con una colonnaBIGNUMERIC
genera un errore di convalida e non viene creata correttamente. - Le tabelle BigQuery da sottoporre a scansione devono avere al massimo 300 colonne.
Prezzi
Dataplex utilizza lo SKU di elaborazione premium per addebitare la profilazione dei dati. Per ulteriori informazioni, vedi Prezzi.
La pubblicazione dei risultati della profilazione dei dati in Data Catalog non è ancora disponibile. Quando sarà disponibile, verrà addebitato alla stessa tariffa dei prezzi di archiviazione dei metadati dei cataloghi. Per ulteriori informazioni, consulta la sezione Prezzi.
L'elaborazione premium di Dataplex per la profilazione dei dati viene fatturata per secondo con un minimo di un minuto.
Le scansioni di profilazione non riuscite non comportano alcun addebito.
L'addebito dipende dal numero di righe, dal numero di colonne, dalla quantità di dati analizzati, dalle impostazioni di partizione e clustering della tabella e dalla frequenza della scansione.
Esistono diverse opzioni per ridurre il costo delle analisi di profilazione dei dati:
- Campionamento
- Scansioni incrementali
- Filtro delle colonne
- Filtro delle righe
Per separare gli addebiti per la profilazione dei dati dagli altri addebiti nello SKU di elaborazione premium di Dataplex, nel report Fatturazione cloud, utilizza l'etichetta
goog-dataplex-workload-type
con il valoreDATA_PROFILE
.Per filtrare gli addebiti aggregati, utilizza le seguenti etichette:
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
Passaggi successivi
- Scopri come utilizzare la profilazione dei dati.
- Scopri di più sulla qualità dei dati automatica.
- Scopri come utilizzare la qualità dei dati automatica.