Monitora la qualità dei dati con le scansioni

Questo documento spiega come utilizzare BigQuery e Dataplex insieme per garantire che i dati soddisfino le tue aspettative di qualità. BigQuery utilizza Dataplex per definire controlli continui dei dati, monitorare i risultati e risolvere i problemi relativi alla qualità dei dati.

Per scoprire di più sulla qualità dei dati automatica, consulta Informazioni sulla qualità dei dati automatica.

Prima di iniziare

Ruoli obbligatori

Chiedi all'amministratore di concedere i ruoli seguenti alle entità account appropriate in base ai casi d'uso a cui devono accedere. Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso.

Ruoli BigQuery

  • Visualizzatore dati BigQuery su una tabella per creare una scansione sulla tabella senza pubblicare i risultati.
  • Editor dati BigQuery su una tabella per creare una scansione sulla tabella con la pubblicazione.
  • Se la tabella BigQuery e l'analisi della qualità dei dati si trovano in progetti diversi, devi concedere all'account di servizio Dataplex l'autorizzazione di lettura bigquery.tables.getData (o il ruolo Visualizzatore dati BigQuery) per la tabella BigQuery corrispondente. Per ottenere l'identità del servizio per un account di servizio, consulta Prima di iniziare.
  • Se stai analizzando una tabella BigQuery esterna da Cloud Storage, assegna il ruolo di Cloud Storage (roles/storage.objectViewer) all'account di servizio Dataplex.

Ruoli Dataplex

  • Amministratore Dataplex DataScan a livello di progetto per creare analisi.
  • Editor DataScan Dataplex in una scansione: per modificare le proprietà di un'analisi (tranne le autorizzazioni), eseguire l'analisi ed eliminarla.
  • DataVisualizzatore di dati Dataplex su una scansione per visualizzare i risultati di una scansione.

Questi ruoli contengono le autorizzazioni necessarie per i casi d'uso precedenti. Per visualizzare esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie.

Autorizzazioni obbligatorie

Per utilizzare vari aspetti delle analisi della qualità dei dati sono necessarie le seguenti autorizzazioni:

  • Per modificare la configurazione di una scansione dei dati: dataplex.datascans.update - sulla risorsa Datascan
  • Per modificare il criterio di una scansione dei dati: dataplex.datascans.setIamPolicy - sulla risorsa Datascan
  • Per creare un'analisi dei dati su una tabella BigQuery: bigquery.tables.getData: la tabella da analizzare
  • Per creare analisi dei dati in un progetto: dataplex.datascans.create - nel progetto
  • Per eliminare una scansione dei dati: dataplex.datascans.delete - sulla risorsa Datascan
  • Per esportare i risultati della scansione dei dati in un set di dati BigQuery: bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update, bigquery.tables.updateData: il set di dati di destinazione
  • Per pubblicare i risultati di un'analisi dei dati in una tabella: bigquery.tables.update - la tabella di destinazione
  • Per eseguire una scansione dei dati: dataplex.datascans.run - sulla risorsa Datascan
  • Per eseguire la scansione di una tabella esterna da Cloud Storage: storage.buckets.get, storage.objects.get: il bucket contenente le tabelle da scansionare
  • Per visualizzare i risultati di un'analisi dei dati: dataplex.datascans.getData - sulla risorsa di scansione dei dati
  • Per visualizzare i risultati di un'analisi dei dati: dataplex.datascans.get - sulla risorsa Datascan
  • Per visualizzare i risultati di un'analisi dei dati: dataplex.datascans.list - sulla risorsa Datascan

Potresti anche riuscire a ottenere queste autorizzazioni con i ruoli personalizzati o altri ruoli predefiniti.

Crea un'analisi della qualità dei dati

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, fai clic su una tabella per la scansione della qualità dei dati.

  3. Fai clic sulla scheda Qualità dei dati.

  4. Fai clic su Analisi della qualità dei dati > Crea nuova analisi.

  5. (Facoltativo) Modifica i seguenti valori:

    • Nome visualizzato: il nome modificabile della risorsa nella console.
    • ID:un identificatore univoco della scansione. Non può essere modificato dopo la creazione della scansione.
    • Descrizione: una descrizione della scansione.
    • Regione:definisce la regione in cui viene elaborata la scansione dei dati.
    • Ambito: l'intervallo di dati disponibili per la scansione. Seleziona Incrementale o Interi dati. Se scegli incrementale, ti consigliamo di includere una colonna DATE o TIMESTAMP che aumenta in modo lineare. Questa colonna può essere utilizzata per identificare nuovi record. Per le tabelle partizionate in base a colonne di tipo DATE o TIMESTAMP, ti consigliamo di utilizzare la colonna di partizione come campo del timestamp.
    • Filtri:filtri da applicare ai dati prima dell'esecuzione della scansione. Per filtrare le righe, seleziona la casella di controllo Filtra righe e inserisci un'espressione SQL valida nel campo di testo di input. L'espressione deve essere nella sintassi SQL standard di BigQuery e può essere utilizzata in una clausola WHERE.
    • Dimensioni del campionamento: la percentuale di dati da campionare. Per le analisi incrementali dei dati, viene campionato solo l'incremento più recente.
    • Pubblica i risultati nell'interfaccia utente del catalogo BigQuery e Dataplex: questa opzione rende disponibili i risultati più recenti dell'analisi della profilazione dei dati nella UI di BigQuery, nella scheda Qualità dei dati per la tabella di origine. Se una scansione è in esecuzione e impostata per la pubblicazione, questa opzione potrebbe non essere disponibile.
    • Programmazione:On demand (impostazione predefinita) o Ripeti. Se selezioni Ripeti, specifica la frequenza della scansione pianificata scegliendo tra Giornaliera, Settimanale, Mensile o Personalizzato. L'opzione personalizzata utilizza il formato orario cron per specificare la pianificazione. Ad esempio, un'analisi impostata per essere eseguita il secondo martedì del mese alle 01:00 avrà il seguente aspetto: 0 1 8-14 * 2.
  6. Per avanzare nel riquadro e mostrare le impostazioni delle regole sulla qualità dei dati, fai clic su Continua.

  7. Fai clic su Aggiungi regole e aggiungi una o più delle seguenti regole in base alle tue esigenze. Puoi eliminare le regole anche con Rimuovi.

    • Consigli basati sul profilo
    • Tipi di regole integrate
    • Regola per il controllo delle righe SQL
    • Regola per il controllo aggregato SQL
  8. (Facoltativo) Per avanzare nel riquadro e visualizzare ulteriori impostazioni facoltative, fai clic su Continua e modifica i seguenti valori:

    • Esporta i risultati della scansione in una tabella BigQuery: seleziona un set di dati BigQuery e una tabella per salvare i risultati della scansione della qualità. Se viene definito un set di dati, ma non una tabella, Dataplex crea una tabella per te. Le tabelle create in questo modo potrebbero comportare costi di archiviazione.
    • Etichette: aggiungi un'etichetta alla scansione.
  9. Fai clic su uno dei seguenti pulsanti in base alle tue esigenze:

    • Per salvare le impostazioni della scansione, fai clic su Crea.
    • Per salvare ed eseguire la scansione, fai clic su Esegui.

Gestisci le autorizzazioni della scansione della qualità dei dati

Per modificare le autorizzazioni di accesso alle scansioni della qualità esistenti:

  1. Vai alla pagina di BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.

  3. Fai clic sulla scheda Qualità dei dati.

  4. Fai clic su Analisi della qualità dei dati > Gestisci autorizzazioni di scansione. Dataplex viene aperto in una nuova scheda.

  5. Fai clic sulla scheda Autorizzazioni.

    • Per concedere l'accesso a un'entità, fai clic su Concedi l'accesso e concedi Dataplex DataScan DataViewer all'entità associata.
    • Per rimuovere l'accesso da un'entità, fai clic su Rimuovi accesso e rimuovi Dataplex DataScan DataViewer dall'entità associata.

Modificare un'analisi della qualità dei dati esistente

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.

  3. Fai clic su Analisi della qualità dei dati > Modifica configurazione dell'analisi.

Vengono visualizzate le impostazioni dell'analisi della qualità dei dati, che possono essere modificate e salvate per le analisi future.

Visualizza i risultati dell'analisi della qualità dei dati

Esistono diversi modi per visualizzare i risultati dell'analisi della qualità dei dati. Seleziona l'opzione più adatta alle tue esigenze.

Visualizza i risultati pubblicati

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.

  3. Fai clic sulla scheda Qualità dei dati.

In questa visualizzazione vengono mostrati gli ultimi risultati pubblicati.

Visualizza i risultati storici della scansione

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.

  3. Fai clic sulla scheda Qualità dei dati.

  4. Fai clic su Analisi della qualità dei dati > Visualizza i risultati storici.

Visualizzare tutte le analisi della qualità dei dati in una tabella

Per aprire Dataplex con una cronologia delle analisi per una tabella specifica, segui questi passaggi:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.

  3. Fai clic su Analisi della qualità dei dati > Visualizza tutte le analisi.