Monitorare la qualità dei dati con le scansioni

Questo documento spiega come utilizzare BigQuery e Dataplex insieme per garantire che i dati soddisfino le tue aspettative di qualità. BigQuery utilizza Dataplex per definire controlli continui dei dati, monitorare i risultati e risolvere i problemi relativi alla qualità dei dati.

Per saperne di più sulla qualità automatica dei dati, consulta Informazioni sulla qualità dei dati automatici.

Prima di iniziare

Ruoli obbligatori

Chiedi all'amministratore di concedere i seguenti ruoli alle entità account appropriate in base ai casi d'uso a cui devono accedere. Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso.

Ruoli BigQuery

  • Visualizzatore dati BigQuery su una tabella per creare una scansione su quella tabella senza pubblicare i risultati.
  • Editor dati BigQuery su una tabella per creare una scansione su quella tabella con la pubblicazione.
  • Se la tabella BigQuery e l'analisi della qualità dei dati si trovano in progetti diversi, devi concedere all'account di servizio Dataplex l'autorizzazione di lettura bigquery.tables.getData (o il ruolo Visualizzatore dati BigQuery) nella tabella BigQuery corrispondente. Per ottenere l'identità di servizio per un account di servizio, vedi Prima di iniziare.
  • Se stai analizzando una tabella esterna BigQuery da Cloud Storage, assegna il ruolo Cloud Storage (roles/storage.objectViewer) all'account di servizio Dataplex.

Ruoli Dataplex

  • Amministratore Dataplex DataScan a livello di progetto per creare scansioni.
  • Editor Dataplex DataScan su una scansione: per modificare le proprietà di una scansione (tranne le autorizzazioni), eseguire la scansione ed eliminarla.
  • Dataplex DataScan DataViewer su una scansione per visualizzare i risultati di una scansione.

Questi ruoli contengono le autorizzazioni necessarie per i casi d'uso precedenti. Per visualizzare le autorizzazioni necessarie, espandi la sezione Autorizzazioni richieste.

Autorizzazioni obbligatorie

Per utilizzare i vari aspetti delle analisi della qualità dei dati sono necessarie le seguenti autorizzazioni:

  • Per modificare la configurazione di una scansione dei dati: dataplex.datascans.update - sulla risorsa Datascan
  • Per modificare il criterio di una scansione dei dati: dataplex.datascans.setIamPolicy - sulla risorsa Datascan
  • Per creare un'analisi dei dati su una tabella BigQuery: bigquery.tables.getData - la tabella da analizzare
  • Per creare analisi dei dati in un progetto: dataplex.datascans.create - nel progetto
  • Per eliminare una scansione dei dati: dataplex.datascans.delete nella risorsa Datascan
  • Per esportare i risultati della scansione dei dati in un set di dati BigQuery: bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update, bigquery.tables.updateData - il set di dati di destinazione
  • Per pubblicare i risultati di un'analisi dei dati in una tabella: bigquery.tables.update - la tabella di destinazione
  • Per eseguire una scansione dei dati: dataplex.datascans.run sulla risorsa Datascan
  • Per eseguire la scansione di una tabella esterna da Cloud Storage: storage.buckets.get, storage.objects.get: il bucket che contiene le tabelle da scansionare
  • Per visualizzare i risultati di un'analisi dei dati: dataplex.datascans.getData - sulla risorsa di analisi dei dati
  • Per visualizzare i risultati di una scansione dei dati: dataplex.datascans.get - nella risorsa Datascan
  • Per visualizzare i risultati di una scansione dei dati: dataplex.datascans.list - sulla risorsa Datascan

Potresti anche essere in grado di ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Crea un'analisi della qualità dei dati

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, fai clic su una tabella per la scansione della qualità dei dati.

  3. Fai clic sulla scheda Qualità dei dati.

  4. Fai clic su Analisi della qualità dei dati > Crea nuova analisi.

  5. (Facoltativo) Modifica i seguenti valori:

    • Nome visualizzato:il nome modificabile della risorsa nella console.
    • ID:un identificatore univoco per la scansione. Non può essere modificato dopo la creazione della scansione.
    • Descrizione: una descrizione della scansione.
    • Regione:definisce la regione in cui viene elaborata la scansione dei dati.
    • Ambito: l'intervallo di dati disponibili per la scansione. Seleziona Incremento o Dati completi. Se scegli Incrementale, ti consigliamo di includere una colonna DATE o TIMESTAMP che aumenti in modo lineare. Questa colonna può essere utilizzata per identificare nuovi record. Per le tabelle partizionate in colonne di tipo DATE o TIMESTAMP, ti consigliamo di utilizzare la colonna di partizione come campo del timestamp.
    • Filtri:i filtri da applicare ai dati prima dell'esecuzione della scansione. Per filtrare le righe, seleziona la casella di controllo Filtra righe e inserisci un'espressione SQL valida nel campo di testo di input. L'espressione deve utilizzare la sintassi SQL standard di BigQuery e può essere utilizzata in una clausola WHERE.
    • Dimensioni campionamento: la percentuale di dati che vuoi campionare. Per le scansioni di dati incrementali, viene campionato solo l'ultimo incremento.
    • Pubblica i risultati nell'interfaccia utente del catalogo BigQuery e Dataplex: questa opzione rende disponibili gli ultimi risultati dell'analisi della profilazione dei dati nell'interfaccia utente di BigQuery, nella scheda Qualità dei dati della tabella di origine. Se una scansione è in esecuzione e impostata per la pubblicazione, questa opzione potrebbe non essere disponibile.
    • Programmazione:On demand (impostazione predefinita) o Ripeti. Se selezioni Ripeti, specifica la frequenza della scansione pianificata con Ogni giorno, Settimanale, Mensile o Personalizzata. L'opzione Personalizzata utilizza il formato orario cron per specificare la pianificazione. Ad esempio, una scansione impostata per essere eseguita il secondo martedì del mese alle ore 01:00 avrebbe il seguente aspetto: 0 1 8-14 * 2.
  6. Per avanzare nel riquadro e visualizzare le impostazioni delle regole sulla qualità dei dati, fai clic su Continua.

  7. Fai clic su Aggiungi regole e aggiungi una o più delle seguenti regole in base ai casi. Le regole possono essere eliminate anche con Rimuovi.

    • Consigli basati sul profilo
    • Tipi di regole integrate
    • Regola per il controllo delle righe SQL
    • Regola per il controllo aggregato SQL
  8. (Facoltativo) Per avanzare nel riquadro e visualizzare altre impostazioni facoltative, fai clic su Continua e modifica i seguenti valori:

    • Esporta i risultati della scansione in una tabella BigQuery: seleziona un set di dati BigQuery e una tabella per salvare i risultati dell'analisi della qualità. Se è stato definito un set di dati, ma non è stata definita alcuna tabella, Dataplex crea una tabella per te. Le tabelle create in questo modo potrebbero comportare costi di archiviazione.
    • Etichette: aggiungi un'etichetta alla scansione.
  9. Fai clic su uno dei seguenti pulsanti in base alle tue esigenze:

    • Per salvare le impostazioni dell'analisi, fai clic su Crea.
    • Per salvare ed eseguire la scansione, fai clic su Esegui.

Gestisci le autorizzazioni di analisi della qualità dei dati

Per modificare le autorizzazioni di accesso delle analisi della qualità esistenti:

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.

  3. Fai clic sulla scheda Qualità dei dati.

  4. Fai clic su Analisi della qualità dei dati > Gestisci autorizzazioni di scansione. Dataplex si apre in una nuova scheda.

  5. Fai clic sulla scheda Autorizzazioni.

    • Per concedere l'accesso a un'entità, fai clic su Concedi accesso e concedi Dataplex DataScan DataViewer all'entità associata.
    • Per rimuovere l'accesso da un'entità, fai clic su Rimuovi accesso e rimuovi Dataplex DataScan DataViewer dall'entità associata.

Modificare un'analisi della qualità dei dati esistente

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.

  3. Fai clic su Analisi della qualità dei dati > Modifica configurazione di scansione.

Vengono visualizzate le impostazioni di analisi della qualità dei dati, che possono essere modificate e salvate per le analisi future.

Visualizzare i risultati dell'analisi della qualità dei dati

Esistono diversi modi per visualizzare i risultati dell'analisi della qualità dei dati. Seleziona l'opzione più adatta alle tue esigenze.

Visualizza i risultati pubblicati

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.

  3. Fai clic sulla scheda Qualità dei dati.

In questa visualizzazione vengono mostrati gli ultimi risultati pubblicati.

Visualizzare i risultati della scansione storica

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.

  3. Fai clic sulla scheda Qualità dei dati.

  4. Fai clic su Analisi della qualità dei dati > Visualizza risultati storici.

Visualizza tutte le analisi della qualità dei dati in una tabella

Per aprire Dataplex con una cronologia di analisi per una tabella specifica, segui questi passaggi:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.

  3. Fai clic su Scansione della qualità dei dati > Visualizza tutte le analisi.