La profilazione dei dati Dataplex consente di identificare caratteristiche statistiche delle colonne in BigQuery tabelle. Queste informazioni ti aiutano a comprendere e analizzare i tuoi dati in modo più efficace.
Informazioni come i valori tipici dei dati, la distribuzione dei dati e i conteggi di valori null possono per velocizzare l'analisi. Se combinata con la classificazione dei dati, la profilazione dei dati può rilevare classi di dati o informazioni sensibili che, a loro volta, possono consentire l'accesso e i criteri di controllo.
Dataplex utilizza queste informazioni anche per consigliare regole per i controlli della qualità dei dati.
Modello concettuale
Dataplex consente di comprendere meglio il profilo dei tuoi dati tramite creando un'analisi di profilazione dei dati.
Il seguente diagramma mostra come Dataplex analizza i dati per generare report caratteristiche statistiche.
Un'analisi della profilazione dei dati è associata a una tabella BigQuery analizza la tabella per generare i risultati della profilazione dei dati. Una profilazione dei dati la scansione supporta diverse opzioni di configurazione.
Opzioni di configurazione
Questa sezione descrive le opzioni di configurazione disponibili per l'esecuzione scansioni di profilazione dei dati.
Opzioni di programmazione
Puoi pianificare un'analisi della profilazione dei dati con una frequenza definita o on demand tramite l'API o la console Google Cloud.
Ambito
Nell'ambito della specifica di un'analisi di profilazione dei dati, puoi specificare l'ambito di un job, scegliendo una delle seguenti opzioni:
Tabella completa: l'intera tabella viene analizzata durante l'analisi della profilazione dei dati. Campionamento, filtri di riga e filtri di colonna vengono applicati all'intera tabella prima di calcolare le statistiche di profilazione.
Incrementale: i dati incrementali specificati vengono analizzati nei dati scansione del profilo. Specifica nella tabella una colonna
Date
oTimestamp
da utilizzare utilizzata come incremento. Generalmente, si tratta della colonna in cui viene visualizzata la tabella partizionate. Campionamento, filtri di riga e filtri di colonna vengono applicati alla i dati incrementali prima del calcolo delle statistiche di profilazione.
Filtra dati
Puoi filtrare i dati da analizzare per la profilazione utilizzando i filtri di riga e filtri di colonna. L'uso dei filtri consente di ridurre i tempi e i costi di esecuzione, ed escludere i dati sensibili e inutili.
Filtri riga: i filtri di riga ti consentono di concentrarti sui dati in un intervallo di tempo specifico. periodo o da un segmento specifico, come una regione. Ad esempio, puoi filtrare i dati con un timestamp precedente a una determinata data.
Filtri delle colonne: i filtri delle colonne ti consentono di includere ed escludere specifici colonne della tabella per eseguire l'analisi della profilazione dei dati.
Dati di esempio
Dataplex consente di specificare una percentuale di record dai tuoi dati come esempio per l'esecuzione di un'analisi di profilazione dei dati. Creazione in corso... le analisi di profilazione dei dati su un campione di dati più ridotto possono ridurre i tempi di esecuzione e i costi dell'esecuzione di query sull'intero set di dati.
Più analisi di profilazione dei dati
Dataplex consente di creare più analisi di profilazione dei dati alla volta utilizzando la console Google Cloud. Puoi selezionare fino a 100 tabelle da un set di dati e creo un'analisi di profilazione dei dati per ogni set di dati. Scopri di più.
Esporta i risultati della scansione in una tabella BigQuery
Puoi esportare i risultati dell'analisi della profilazione dei dati in una tabella BigQuery per ulteriori analisi. Per personalizzare i report, puoi collegare dei dati della tabella BigQuery in una dashboard di Looker. Puoi creare un report aggregato utilizzando la stessa tabella dei risultati in più analisi.
Risultati della profilazione dei dati
I risultati della profilazione dei dati includono i seguenti valori:
Tipo di colonna | Risultati della profilazione dei dati |
---|---|
Colonna numerica |
|
Colonna stringa |
|
Altre colonne non nidificate (data, ora, timestamp, binario e così via) |
|
Tutte le altre colonne di tipo dati nidificate o complesse (come Record, Array, JSON) o qualsiasi colonna con la modalità ripetuta. |
|
I risultati includono il numero di record analizzati in ogni esecuzione.
Rapporti e monitoraggio
Puoi monitorare e analizzare i risultati della profilazione dei dati utilizzando quanto segue report e metodi:
Report pubblicati con la tabella di origine nelle pagine BigQuery e Data Catalog
Se hai configurato un'analisi di profilazione dei dati per pubblicare i risultati nel Nelle pagine di BigQuery e Data Catalog nel Console Google Cloud, potrai visualizzare l'ultima analisi della profilazione dei dati restituisce queste pagine nella scheda Profilo dati, da qualsiasi progetto.
Report storico per job in Dataplex
Nella pagina Profilo Dataplex, puoi visualizzare il report report per le offerte di lavoro più recenti e storiche. Include il profilo a livello di colonna e la configurazione utilizzata.
Scheda Analisi
Nella pagina Profilo Dataplex, puoi utilizzare il pulsante Analisi tabulazione per visualizzare le tendenze di una determinata statistica di una colonna su più di lavoro del profilo. Ad esempio, se hai una scansione incrementale, puoi vedere come la media di un valore è in tendenza nel tempo.
Crea la tua dashboard o le tue analisi
Se hai configurato un'analisi di profilazione dei dati per esportare o salvare i risultati in un tabella BigQuery, puoi creare le tue dashboard come Looker Studio.
Limitazioni
- I risultati della profilazione dei dati non vengono pubblicati in Data Catalog come i tag.
- La profilazione dei dati è supportata per le tabelle BigQuery con tutte le colonne
tranne
BIGNUMERIC
. Una scansione creata per una tabella conBIGNUMERIC
genera un errore di convalida e non viene creata correttamente. - Le tabelle BigQuery da analizzare devono avere 300 colonne meno risorse.
Prezzi
Dataplex utilizza lo SKU di elaborazione premium per addebitare i costi dei dati la profilazione. Per ulteriori informazioni, vedi Prezzi.
La pubblicazione dei risultati sulla profilazione dei dati in Data Catalog non è ancora attiva disponibili. Quando sarà disponibile, ti verrà addebitata la stessa tariffa Prezzi di archiviazione dei metadati del catalogo. Per ulteriori informazioni, vedi Prezzi.
L'elaborazione premium di Dataplex per la profilazione dei dati viene fatturata in base secondo con un minimo di un minuto.
Non ti viene addebitato alcun costo per le analisi di profilazione non riuscite.
L'addebito dipende dal numero di righe, numeri di colonne, analisi dei dati, le impostazioni di partizionamento e clustering nella tabella e frequenza della scansione.
Esistono diverse opzioni per ridurre il costo delle analisi di profilazione dei dati:
- Campionamento
- Scansioni incrementali
- Filtro delle colonne
- Filtro riga
Per separare gli addebiti della profilazione dei dati da altri addebiti in Dataplex SKU di elaborazione premium, Report Fatturazione Cloud, utilizza l'etichetta
goog-dataplex-workload-type
con valoreDATA_PROFILE
.Per filtrare gli addebiti aggregati, utilizza le seguenti etichette:
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
Passaggi successivi
- Scopri come utilizzare la profilazione dei dati.
- Scopri di più sulla qualità automatica dei dati.
- Scopri come utilizzare la qualità dei dati automatica.