Monitora la qualità dei dati con le scansioni

Questo documento spiega come utilizzare BigQuery e Dataplex per garantire che i dati soddisfino la tua qualità le aspettative. BigQuery utilizza Dataplex per definire controlli continui dei dati, monitora i risultati e risolvi i problemi relativi ai dati. qualità.

Per ulteriori informazioni sulla qualità automatica dei dati, vedi Informazioni sulla qualità dei dati automatica.

Prima di iniziare

  • Per creare e modificare le scansioni nel progetto: abilita il l'API Dataplex.

    Abilita l'API Dataplex

  • Per le analisi tra progetti: crea un identificatore di servizio Dataplex con Comando gcloud beta services identity create. Se non esiste un identificatore di servizio Dataplex, questo comando e ne restituisce uno nuovo. Se esiste già un identificatore di servizio, il comando restituisce quello esistente. Questo comando potrebbe chiederti di installare I comandi beta di gcloud CLI di strumento di authoring.

    gcloud beta services identity create
    --service=dataplex.googleapis.com
    

Ruoli obbligatori

Chiedi all'amministratore di concedere i seguenti ruoli all'account appropriato in base ai casi d'uso a cui devono accedere. Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestisci accesso.

Ruoli BigQuery

  • Visualizzatore dati BigQuery su una tabella per creare una scansione al suo interno senza pubblicare i risultati.
  • Editor dati BigQuery su una tabella per creare una scansione sulla tabella con pubblicazione.
  • Se la tabella BigQuery e l'analisi della qualità dei dati sono in a progetti diversi, devi fornire a Dataplex autorizzazione di lettura dell'account di servizio bigquery.tables.getData (o il ruolo Visualizzatore dati BigQuery) nella rispettiva Tabella BigQuery. a ottenere l'identità di un servizio vedi Prima di iniziare.
  • Se stai analizzando una tabella BigQuery esterna Cloud Storage, quindi assegna il ruolo Cloud Storage (roles/storage.objectViewer) al servizio Dataplex .

Ruoli Dataplex

  • Amministratore Dataplex DataScan a livello di progetto per creare analisi.
  • Editor DataScan Dataplex in una scansione per modificare le proprietà di una scansione (tranne le autorizzazioni), esegui la scansione ed eliminala.
  • DataVisualizzatore di dati Dataplex su una scansione per visualizzare i risultati di una scansione.

Questi ruoli contengono le autorizzazioni necessarie per i casi d'uso precedenti. Per vedere le le autorizzazioni esatte richieste, espandi la sezione Autorizzazioni obbligatorie .

Autorizzazioni obbligatorie

Per utilizzare vari aspetti dei dati sono necessarie le seguenti autorizzazioni scansioni di qualità:

  • Per modificare la configurazione di una scansione dei dati: dataplex.datascans.update: sulla risorsa Datascan
  • Per modificare i criteri di una scansione dei dati: dataplex.datascans.setIamPolicy: sulla risorsa Datascan
  • Per creare un'analisi dei dati in una tabella BigQuery: bigquery.tables.getData - la tabella da analizzare
  • Per creare analisi dei dati in un progetto: dataplex.datascans.create - del progetto
  • Per eliminare una scansione di dati: dataplex.datascans.delete - il risorsa Datascan
  • Per esportare i risultati della scansione dei dati in un set di dati BigQuery: bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get bigquery.tables.update bigquery.tables.updateData: il set di dati di destinazione
  • Per pubblicare i risultati di un'analisi dei dati in una tabella: bigquery.tables.update: la tabella di destinazione
  • Per eseguire una scansione dei dati: dataplex.datascans.run - sulla scansione dei dati risorsa
  • Per eseguire la scansione di una tabella esterna da Cloud Storage: storage.buckets.get, storage.objects.get: il bucket che contengono le tabelle da scansionare
  • Per visualizzare i risultati di una scansione dei dati: dataplex.datascans.getData nella risorsa di scansione dei dati
  • Per visualizzare i risultati di una scansione di dati: dataplex.datascans.get - il la risorsa Datascan
  • Per visualizzare i risultati di una scansione di dati: dataplex.datascans.list - sulla risorsa Datascan

Potresti anche riuscire a ottenere queste autorizzazioni con ruoli personalizzati o altro ruoli predefiniti.

Crea un'analisi della qualità dei dati

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, fai clic su una tabella per la qualità dei dati. scansione.

  3. Fai clic sulla scheda Qualità dei dati.

  4. Fai clic su Analisi della qualità dei dati > Crea nuova scansione.

  5. (Facoltativo) Modifica i seguenti valori:

    • Nome visualizzato: il nome modificabile della risorsa nella console.
    • ID:un identificatore univoco della scansione. Non può essere modificato dopo la creazione della scansione.
    • Descrizione: una descrizione della scansione.
    • Regione:definisce la regione in cui viene elaborata la scansione dei dati.
    • Ambito: l'intervallo di dati disponibili per la scansione. Seleziona Incrementale o Interi dati. Se scegli incrementale, ti consigliamo inclusa una colonna DATE o TIMESTAMP che aumenta in modo lineare. Questo colonna può essere utilizzata per identificare nuovi record. Per le tabelle partizionate in base a colonne di tipo DATE o TIMESTAMP, è consigliabile utilizzare di partizione come campo del timestamp.
    • Filtri:filtri da applicare ai dati prima dell'esecuzione della scansione. A filtrare le righe, seleziona la casella di controllo Filtra righe e inserisci un valore SQL valido nel campo di testo di input. L'espressione deve essere in la sintassi SQL standard di BigQuery e può essere utilizzata in Clausola WHERE.
    • Dimensioni di campionamento: la percentuale di dati che vuoi campione. Per le analisi incrementali dei dati, viene campionato solo l'incremento più recente.
    • Pubblica i risultati nell'interfaccia utente del catalogo BigQuery e Dataplex: questa opzione esegue gli ultimi risultati dell'analisi della profilazione dei dati disponibile nell'interfaccia utente di BigQuery, nella sezione Qualità dei dati per la tabella di origine. Se una scansione è in esecuzione e impostata per la pubblicazione, questa opzione potrebbe non essere disponibile.
    • Programmazione:On demand (impostazione predefinita) oppure Ripeti. Se selezioni Ripeti, specifica la frequenza del scansione pianificata con Giornaliera, Settimanale, Mensile o Personalizzato. L'impostazione personalizzata utilizza cron formato dell'ora per specificare la pianificazione. Ad esempio, una scansione impostata per essere eseguita il secondo martedì del mese alle 01:00 avrà il seguente aspetto: 0 1 8-14 * 2.
  6. Per avanzare nel riquadro e visualizzare le impostazioni delle regole sulla qualità dei dati, fai clic su Continua.

  7. Fai clic su Aggiungi regole e aggiungi una o più delle seguenti regole come appropriato. Puoi eliminare le regole anche con Rimuovi.

    • Consigli basati sul profilo
    • Tipi di regole integrate
    • Regola per il controllo delle righe SQL
    • Regola per il controllo aggregato SQL
  8. (Facoltativo) Per avanzare nel riquadro e visualizzare ulteriori impostazioni facoltative, Fai clic su Continua e modifica i seguenti valori:

    • Esporta i risultati della scansione in una tabella BigQuery: seleziona un'opzione set di dati BigQuery e una tabella per salvare i risultati scansione della qualità. Se un set di dati è definito, ma non è definita alcuna tabella, Dataplex crea una tabella per te. Tabelle create in questo che potrebbe incorrere costi di archiviazione.
    • Etichette: aggiungi un etichetta alla scansione.
  9. Fai clic su uno dei seguenti pulsanti in base alle tue esigenze:

    • Per salvare le impostazioni della scansione, fai clic su Crea.
    • Per salvare ed eseguire la scansione, fai clic su Esegui.

Gestisci le autorizzazioni della scansione della qualità dei dati

Per modificare le autorizzazioni di accesso alle scansioni della qualità esistenti:

  1. Vai alla pagina di BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la qualità dei dati scansione.

  3. Fai clic sulla scheda Qualità dei dati.

  4. Fai clic su Analisi della qualità dei dati > Gestisci le autorizzazioni della scansione. Dataplex viene aperto in una nuova scheda.

  5. Fai clic sulla scheda Autorizzazioni.

    • Per concedere l'accesso a un'entità, fai clic su Concedi l'accesso e concedi Dataplex DataScan DataViewer al associato.
    • Per rimuovere l'accesso da un'entità, fai clic su Rimuovi l'accesso e rimuovi Dataplex DataScan DataViewer dal associato.

Modificare un'analisi della qualità dei dati esistente

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la qualità dei dati scansione.

  3. Fai clic su Analisi della qualità dei dati > Modifica configurazione della scansione.

Vengono visualizzate le impostazioni dell'analisi della qualità dei dati, che possono essere modificate e salvate per le analisi future.

Visualizza i risultati dell'analisi della qualità dei dati

Esistono diversi modi per visualizzare i risultati dell'analisi della qualità dei dati. Seleziona l'opzione più adatto alle tue esigenze.

Visualizza i risultati pubblicati

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la qualità dei dati scansione.

  3. Fai clic sulla scheda Qualità dei dati.

In questa visualizzazione vengono mostrati gli ultimi risultati pubblicati.

Visualizza i risultati storici della scansione

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la qualità dei dati scansione.

  3. Fai clic sulla scheda Qualità dei dati.

  4. Fai clic su Analisi della qualità dei dati > Visualizzare i risultati storici.

Visualizzare tutte le analisi della qualità dei dati in una tabella

Per aprire Dataplex con una cronologia delle analisi per una tabella specifica, esegui le seguenti:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la qualità dei dati scansione.

  3. Fai clic su Analisi della qualità dei dati > Visualizza tutte le scansioni.