Eseguire la scansione per rilevare problemi di qualità dei dati

Questo documento spiega come utilizzare BigQuery e Dataplex Universal Catalog insieme per garantire che i dati soddisfino le tue aspettative di qualità. La qualità dei dati automatica di Dataplex Universal Catalog consente di definire e misurare la qualità dei dati nelle tabelle BigQuery. Puoi automatizzare la scansione dei dati, convalidarli in base a regole definite e registrare avvisi se i dati non soddisfano i requisiti di qualità.

Per saperne di più sulla qualità dei dati automatica, consulta la panoramica della qualità dei dati automatica.

Prima di iniziare

  1. Enable the Dataplex API.

    Enable the API

  2. (Facoltativo) Se vuoi che Dataplex Universal Catalog generi consigli per le regole di qualità dei dati in base ai risultati di una scansione del profilo dati, crea ed esegui la scansione del profilo dati.

Ruoli obbligatori

  • Per eseguire una scansione della qualità dei dati su una tabella BigQuery, devi disporre dell'autorizzazione per leggere la tabella BigQuery e dell'autorizzazione per creare un job BigQuery nel progetto utilizzato per scansionare la tabella.

  • Se la tabella BigQuery e la scansione della qualità dei dati si trovano in progetti diversi, devi concedere all'account di servizio Dataplex Universal Catalog del progetto contenente la scansione della qualità dei dati l'autorizzazione di lettura per la tabella BigQuery corrispondente.

  • Se le regole di qualità dei dati fanno riferimento a tabelle aggiuntive, il account di servizio del progetto di scansione deve disporre delle autorizzazioni di lettura per le stesse tabelle.

  • Per ottenere le autorizzazioni necessarie per esportare i risultati della scansione in una tabella BigQuery, chiedi all'amministratore di concedere al account di servizio Dataplex Universal Catalog il ruolo IAM Editor dati BigQuery (roles/bigquery.dataEditor) nel set di dati e nella tabella dei risultati. In questo modo vengono concesse le seguenti autorizzazioni:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Se i dati BigQuery sono organizzati in un lake Dataplex Universal Catalog, concedi all'account di servizio Dataplex Universal Catalog i ruoli IAM Lettore metadati Dataplex (roles/dataplex.metadataReader) e Visualizzatore Dataplex (roles/dataplex.viewer). In alternativa, devi disporre di tutte le seguenti autorizzazioni:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Se esegui la scansione di una tabella esterna BigQuery da Cloud Storage, concedi all'account di servizio Dataplex Universal Catalog il ruolo Visualizzatore oggetti Storage (roles/storage.objectViewer) per il bucket. In alternativa, assegna all'account di servizio Dataplex Universal Catalog le seguenti autorizzazioni:

    • storage.buckets.get
    • storage.objects.get
  • Se vuoi pubblicare i risultati della scansione della qualità dei dati come metadati di Dataplex Universal Catalog, devi disporre del ruolo IAM Editor dati BigQuery (roles/bigquery.dataEditor) per la tabella e dell'autorizzazione dataplex.entryGroups.useDataQualityScorecardAspect per il gruppo di voci @bigquery nella stessa località della tabella. In alternativa, devi disporre del ruolo Editor Dataplex Catalog (roles/dataplex.catalogEditor) per il gruppo di voci @bigquery nella stessa posizione della tabella.

    In alternativa, devi disporre di tutte le seguenti autorizzazioni:

    • bigquery.tables.update - sul tavolo
    • dataplex.entryGroups.useDataQualityScorecardAspect sul gruppo di voci @bigquery

    In alternativa, devi disporre di tutte le seguenti autorizzazioni:

    • dataplex.entries.update - sul gruppo di voci @bigquery
    • dataplex.entryGroups.useDataQualityScorecardAspect sul gruppo di voci @bigquery
  • Se devi accedere a colonne protette da criteri di accesso a livello di colonna BigQuery, assegna all'account di servizio Dataplex Universal Catalog le autorizzazioni per queste colonne. L'utente che crea o aggiorna una scansione dei dati deve disporre anche delle autorizzazioni per le colonne.

  • Se una tabella ha abilitato le policy di accesso a livello di riga di BigQuery, puoi scansionare solo le righe visibili all'account di servizio del Catalogo universale Dataplex. Tieni presente che i privilegi di accesso del singolo utente non vengono valutati per le norme a livello di riga.

Ruoli di scansione dei dati obbligatori

Per utilizzare la qualità automatica dei dati, chiedi all'amministratore di concederti uno dei seguenti ruoli IAM:

  • Accesso completo alle risorse DataScan: Amministratore Dataplex DataScan (roles/dataplex.dataScanAdmin)
  • Per creare risorse DataScan: Dataplex DataScan Creator (roles/dataplex.dataScanCreator) sul progetto
  • Accesso in scrittura alle risorse DataScan: editor Dataplex DataScan (roles/dataplex.dataScanEditor)
  • Accesso in lettura alle risorse DataScan escluse regole e risultati: Dataplex DataScan Viewer (roles/dataplex.dataScanViewer)
  • Accesso in lettura alle risorse DataScan, incluse regole e risultati: Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer)

La tabella seguente elenca le autorizzazioni DataScan:

Nome dell'autorizzazione Concede l'autorizzazione per svolgere le seguenti operazioni:
dataplex.datascans.create Crea un DataScan
dataplex.datascans.delete Eliminare un DataScan
dataplex.datascans.get Visualizzare i metadati operativi come ID o pianificazione, ma non risultati e regole
dataplex.datascans.getData Visualizzare i dettagli di DataScan, incluse regole e risultati
dataplex.datascans.list Elenco DataScan
dataplex.datascans.run Esegui un DataScan
dataplex.datascans.update Aggiornare la descrizione di un DataScan
dataplex.datascans.getIamPolicy Visualizza le autorizzazioni IAM correnti nella scansione
dataplex.datascans.setIamPolicy Imposta le autorizzazioni IAM per la scansione

Crea un'analisi della qualità dei dati

Console

  1. Nella console Google Cloud , nella pagina Organizzazione dei metadati di BigQuery, vai alla scheda Profilazione e qualità dei dati.

    Vai a Profilazione e qualità dei dati

  2. Fai clic su Crea analisi della qualità dei dati.

  3. Nella finestra Definisci scansione, compila i seguenti campi:

    1. (Facoltativo) Inserisci un Nome visualizzato.

    2. Inserisci un ID. Consulta le convenzioni di denominazione delle risorse.

    3. Facoltativo: inserisci una descrizione.

    4. Nel campo Table (Tabella), fai clic su Sfoglia. Scegli la tabella da analizzare e fai clic su Seleziona. Sono supportate solo le tabelle BigQuery standard.

      Per le tabelle nei set di dati multiregionali, scegli una regione in cui creare la scansione dei dati.

      Per sfogliare le tabelle organizzate all'interno dei lake Dataplex Universal Catalog, fai clic su Sfoglia all'interno dei datalake Dataplex.

    5. Nel campo Ambito, scegli Incrementale o Tutti i dati.

      • Se scegli Incrementale: nel campo Colonna timestamp, seleziona una colonna di tipo DATE o TIMESTAMP dalla tabella BigQuery che aumenti man mano che vengono aggiunti nuovi record e che possa essere utilizzata per identificare nuovi record. Può essere una colonna che partiziona la tabella.
    6. Per filtrare i dati, seleziona la casella di controllo Filtra righe. Fornisci un filtro per le righe costituito da un'espressione SQL valida che può essere utilizzata come parte di una clausola WHERE nella sintassi GoogleSQL. Ad esempio: col1 >= 0. Il filtro può essere una combinazione di più condizioni di colonna. Ad esempio, col1 >= 0 AND col2 < 10.

    7. Per campionare i dati, seleziona una percentuale di campionamento nell'elenco Dimensioni del campionamento. Scegli un valore percentuale compreso tra 0,0% e 100,0% con un massimo di tre cifre decimali. Per set di dati più grandi, scegli una percentuale di campionamento inferiore. Ad esempio, per una tabella da 1 PB, se inserisci un valore compreso tra 0,1% e 1,0%, la scansione della qualità dei dati campiona tra 1 e 10 TB di dati. Per le scansioni incrementali dei dati, l'analisi della qualità dei dati applica il campionamento all'incremento più recente.

    8. Per pubblicare i risultati della scansione della qualità dei dati come metadati di Dataplex Universal Catalog, seleziona la casella di controllo Pubblica i risultati in BigQuery e Dataplex Catalog.

      Puoi visualizzare i risultati dell'ultima scansione nella scheda Qualità dei dati nelle pagine di BigQuery e Dataplex Universal Catalog per la tabella di origine. Per consentire agli utenti di accedere ai risultati della scansione pubblicati, consulta la sezione Concedere l'accesso ai risultati della scansione del profilo di dati di questo documento.

    9. Nella sezione Pianificazione, scegli una delle seguenti opzioni:

      • Ripeti: esegui la scansione della qualità dei dati in base a una pianificazione: oraria, giornaliera, settimanale, mensile o personalizzata. Specifica la frequenza di esecuzione della scansione e l'ora. Se scegli Personalizzato, utilizza il formato cron per specificare la pianificazione.

      • On demand: esegui la scansione della qualità dei dati on demand.

    10. Fai clic su Continua.

  4. Nella finestra Regole sulla qualità dei dati, definisci le regole da configurare per questa analisi della qualità dei dati.

    1. Fai clic su Aggiungi regole e poi scegli una delle seguenti opzioni.

      • Suggerimenti basati sul profilo: crea regole a partire dai suggerimenti basati su una scansione di profilazione dei dati esistente.

        1. Scegli le colonne: seleziona le colonne per cui ottenere regole consigliate.

        2. Scegli progetto di analisi: se la scansione di profilazione dei dati si trova in un progetto diverso da quello in cui stai creando la scansione della qualità dei dati, seleziona il progetto da cui estrarre le scansioni del profilo.

        3. Scegli i risultati del profilo: seleziona uno o più risultati del profilo e fai clic su Ok. Viene visualizzato un elenco di regole suggerite che puoi utilizzare come punto di partenza.

        4. Seleziona la casella di controllo relativa alle regole che vuoi aggiungere e poi fai clic su Seleziona. Una volta selezionate, le regole vengono aggiunte all'elenco delle regole corrente. Dopodiché, puoi modificare le regole.

      • Tipi di regole integrate: crea regole a partire da regole predefinite. Consulta l'elenco delle regole predefinite.

        1. Scegli colonne: seleziona le colonne per cui selezionare le regole.

        2. Scegli i tipi di regole: seleziona i tipi di regole da cui vuoi scegliere, quindi fai clic su Ok. I tipi di regole visualizzati dipendono dalle colonne selezionate.

        3. Seleziona la casella di controllo relativa alle regole che vuoi aggiungere e poi fai clic su Seleziona. Una volta selezionate, le regole vengono aggiunte all'elenco corrente. Dopodiché, puoi modificare le regole.

      • Regola per il controllo delle righe SQL: crea una regola SQL personalizzata da applicare a ogni riga.

        1. In Dimensione, scegli una dimensione.

        2. In Soglia di superamento, scegli una percentuale di record che devono superare il controllo.

        3. In Nome colonna, scegli una colonna.

        4. Nel campo Fornisci un'espressione SQL, inserisci un'espressione SQL che restituisce un valore booleano true (superato) o false (non superato). Per maggiori informazioni, vedi Tipi di regole SQL personalizzate supportati e gli esempi in Definisci regole di qualità dei dati.

        5. Fai clic su Aggiungi.

      • Regola per il controllo aggregato SQL: crea una regola di condizione della tabella SQL personalizzata.

        1. In Dimensione, scegli una dimensione.

        2. In Nome colonna, scegli una colonna.

        3. Nel campo Fornisci un'espressione SQL, inserisci un'espressione SQL che restituisce un valore booleano true (superato) o false (non superato). Per maggiori informazioni, vedi Tipi di regole SQL personalizzate supportati e gli esempi in Definisci regole di qualità dei dati.

        4. Fai clic su Aggiungi.

      • Regola di asserzione SQL: crea una regola di asserzione SQL personalizzata per verificare uno stato non valido dei dati.

        1. In Dimensione, scegli una dimensione.

        2. (Facoltativo) In Nome colonna, scegli una colonna.

        3. Nel campo Fornisci un'istruzione SQL, inserisci un'istruzione SQL che restituisce le righe che corrispondono allo stato non valido. Se vengono restituite delle righe, questa regola non riesce. Ometti il punto e virgola finale dall'istruzione SQL. Per ulteriori informazioni, vedi Tipi di regole SQL personalizzate supportati e gli esempi in Definire le regole di qualità dei dati.

        4. Fai clic su Aggiungi.

    2. (Facoltativo) Per qualsiasi regola di qualità dei dati, puoi assegnare un nome personalizzato da utilizzare per il monitoraggio e gli avvisi, nonché una descrizione. Per farlo, modifica una regola e specifica i seguenti dettagli:

      • Nome regola: inserisci un nome regola personalizzato con un massimo di 63 caratteri. Il nome della regola può includere lettere (a-z, A-Z), cifre (0-9) e trattini (-) e deve iniziare con una lettera e terminare con un numero o una lettera.
      • Descrizione: inserisci una descrizione della regola con una lunghezza massima di 1024 caratteri.
    3. Ripeti i passaggi precedenti per aggiungere altre regole all'analisi della qualità dei dati. Al termine, fai clic su Continua.

  5. (Facoltativo) Esporta i risultati della scansione in una tabella standard BigQuery. Nella sezione Esporta i risultati della scansione in una tabella BigQuery, esegui le seguenti operazioni:

    1. Nel campo Seleziona set di dati BigQuery, fai clic su Sfoglia. Seleziona un set di dati BigQuery in cui archiviare i risultati della scansione della qualità dei dati.

    2. Nel campo Tabella BigQuery, specifica la tabella in cui archiviare i risultati della scansione della qualità dei dati. Se utilizzi una tabella esistente, assicurati che sia compatibile con lo schema della tabella di esportazione. Se la tabella specificata non esiste, Dataplex Universal Catalog la crea per te.

  6. (Facoltativo) Aggiungi etichette. Le etichette sono coppie chiave-valore che consentono di raggruppare oggetti correlati fra loro o con altre risorse Google Cloud .

  7. (Facoltativo) Configura i report di notifica via email per avvisare le persone dello stato e dei risultati di un job di scansione della qualità dei dati. Nella sezione Report notifiche, fai clic su Aggiungi ID email e inserisci fino a cinque indirizzi email. Poi seleziona gli scenari per i quali vuoi inviare i report:

    • Punteggio di qualità (<=): invia un report quando un job viene completato correttamente con un punteggio di qualità dei dati inferiore al punteggio target specificato. Inserisci un punteggio di qualità target compreso tra 0 e 100.
    • Errori del job: invia un report quando il job stesso non va a buon fine, indipendentemente dai risultati della qualità dei dati.
    • Completamento job (con esito positivo o negativo): invia un report al termine del job, indipendentemente dai risultati della qualità dei dati.
  8. Fai clic su Crea.

    Dopo aver creato la scansione, puoi eseguirla in qualsiasi momento facendo clic su Esegui ora.

gcloud

Per creare un'analisi della qualità dei dati, utilizza il comando gcloud dataplex datascans create data-quality.

Se i dati di origine sono organizzati in un lake Dataplex Universal Catalog, includi il flag --data-source-entity:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-entity=DATA_SOURCE_ENTITY

Se i dati di origine non sono organizzati in un lake Dataplex Universal Catalog, includi il flag --data-source-resource:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-resource=DATA_SOURCE_RESOURCE

Sostituisci le seguenti variabili:

  • DATASCAN: il nome della scansione della qualità dei dati.
  • LOCATION: la Google Cloud regione in cui creare l'analisi della qualità dei dati.
  • DATA_QUALITY_SPEC_FILE: il percorso del file JSON o YAML contenente le specifiche per la scansione della qualità dei dati. Il file può essere un file locale o un percorso Cloud Storage con il prefisso gs://. Utilizza questo file per specificare le regole di qualità dei dati per la scansione. Puoi anche specificare ulteriori dettagli in questo file, come filtri, percentuale di campionamento e azioni post-scansione come l'esportazione in BigQuery o l'invio di report di notifica via email. Consulta la documentazione sulla rappresentazione JSON e l'esempio di rappresentazione YAML.
  • DATA_SOURCE_ENTITY: l'entità Dataplex Universal Catalog che contiene i dati per la scansione della qualità dei dati. Ad esempio, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
  • DATA_SOURCE_RESOURCE: il nome della risorsa che contiene i dati per la scansione della qualità dei dati. Ad esempio, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

REST

Per creare un'analisi della qualità dei dati, utilizza il metodo dataScans.create.

Se vuoi creare regole per la scansione della qualità dei dati utilizzando i suggerimenti per le regole basati sui risultati di una scansione di profilazione dei dati, ottieni i suggerimenti chiamando il metodo dataScans.jobs.generateDataQualityRules nella scansione di profilazione dei dati.

Esegui una scansione della qualità dei dati

Console

  1. Nella console Google Cloud , nella pagina Organizzazione dei metadati di BigQuery, vai alla scheda Profilazione e qualità dei dati.

    Vai a Profilazione e qualità dei dati

  2. Fai clic sulla scansione della qualità dei dati da eseguire.

  3. Fai clic su Esegui ora.

gcloud

Per eseguire un'analisi della qualità dei dati, utilizza il comando gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION \

Sostituisci le seguenti variabili:

  • LOCATION: la Google Cloud regione in cui è stata creata l'analisi della qualità dei dati.
  • DATASCAN: il nome della scansione della qualità dei dati.

REST

Per eseguire un'analisi della qualità dei dati, utilizza il metodo dataScans.run.

Visualizzare i risultati dell'analisi della qualità dei dati

Console

  1. Nella console Google Cloud , nella pagina Organizzazione dei metadati di BigQuery, vai alla scheda Profilazione e qualità dei dati.

    Vai a Profilazione e qualità dei dati

  2. Fai clic sul nome di un'analisi della qualità dei dati.

    • La sezione Panoramica mostra informazioni sui job più recenti, tra cui la data di esecuzione della scansione, il numero di record scansionati in ogni job, se tutti i controlli della qualità dei dati sono stati superati e, in caso di errori, il numero di controlli della qualità dei dati non superati.

    • La sezione Configurazione dell'analisi della qualità dei dati mostra i dettagli dell'analisi.

  3. Per visualizzare informazioni dettagliate su un job, ad esempio i punteggi di qualità dei dati che indicano la percentuale di regole superate, le regole non superate e i log dei job, fai clic sulla scheda Cronologia job. Quindi, fai clic su un ID job.

gcloud

Per visualizzare i risultati di un job di scansione della qualità dei dati, utilizza il comando gcloud dataplex datascans jobs describe:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Sostituisci le seguenti variabili:

  • JOB: l'ID job del job di analisi della qualità dei dati.
  • LOCATION: La Google Cloud regione in cui è stata creata la scansione della qualità dei dati.
  • DATASCAN: il nome dell'analisi della qualità dei dati a cui appartiene il job.
  • --view=FULL: per visualizzare il risultato del job di scansione, specifica FULL.

REST

Per visualizzare i risultati di un'analisi della qualità dei dati, utilizza il metodo dataScans.get.

Visualizzare i risultati pubblicati

Se i risultati della scansione della qualità dei dati vengono pubblicati come metadati di Dataplex Universal Catalog, puoi visualizzare i risultati più recenti della scansione nelle pagine BigQuery e Dataplex Universal Catalog della consoleGoogle Cloud , nella scheda Qualità dei dati della tabella di origine.

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona la tabella di cui vuoi visualizzare i risultati dell'analisi della qualità dei dati.

  3. Fai clic sulla scheda Qualità dei dati.

    Vengono visualizzati gli ultimi risultati pubblicati.

Visualizzare i risultati storici delle scansioni

Dataplex Universal Catalog salva la cronologia delle analisi della qualità dei dati degli ultimi 300 job o dell'ultimo anno, a seconda di quale si verifica per primo.

Console

  1. Nella console Google Cloud , nella pagina Organizzazione dei metadati di BigQuery, vai alla scheda Profilazione e qualità dei dati.

    Vai a Profilazione e qualità dei dati

  2. Fai clic sul nome di un'analisi della qualità dei dati.

  3. Fai clic sulla scheda Cronologia dei job.

    La scheda Cronologia job fornisce informazioni sui job precedenti, ad esempio il numero di record scansionati in ogni job, lo stato del job, l'ora in cui è stato eseguito il job e se ogni regola è stata superata o meno.

  4. Per visualizzare informazioni dettagliate su un job, fai clic su uno qualsiasi dei job nella colonna ID job.

gcloud

Per visualizzare i job di scansione della qualità dei dati storici, utilizza il comando gcloud dataplex datascans jobs list:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN \

Sostituisci le seguenti variabili:

  • LOCATION: La Google Cloud regione in cui è stata creata la scansione della qualità dei dati.
  • DATASCAN: Il nome della scansione della qualità dei dati per cui visualizzare i job storici.

REST

Per visualizzare i job di scansione della qualità dei dati storici, utilizza il metodo dataScans.jobs.list.

Concedere l'accesso ai risultati della scansione della qualità dei dati

Per consentire agli utenti della tua organizzazione di visualizzare i risultati della scansione:

  1. Nella console Google Cloud , nella pagina Organizzazione dei metadati di BigQuery, vai alla scheda Profilazione e qualità dei dati.

    Vai a Profilazione e qualità dei dati

  2. Fai clic sulla scansione della qualità dei dati di cui vuoi condividere i risultati.

  3. Fai clic sulla scheda Autorizzazioni.

  4. Segui questi passaggi:

    • Per concedere l'accesso a un'entità, fai clic su Concedi l'accesso. Concedi il ruolo Dataplex DataScan DataViewer all'entità associata.
    • Per rimuovere l'accesso da un'entità, seleziona l'entità da cui vuoi rimuovere il ruolo Visualizzatore dati DataScan Dataplex. Fai clic su Rimuovi accesso e poi conferma quando richiesto.

Risolvere i problemi relativi a un errore di qualità dei dati

Puoi impostare avvisi per gli errori di qualità dei dati utilizzando i log in Cloud Logging. Per saperne di più, incluse le query di esempio, consulta Impostare avvisi in Cloud Logging.

Per ogni job con regole a livello di riga non riuscite, Dataplex Universal Catalog fornisce una query per ottenere i record non riusciti. Esegui questa query per visualizzare i record che non corrispondono alla tua regola.

Console

  1. Nella console Google Cloud , nella pagina Organizzazione dei metadati di BigQuery, vai alla scheda Profilazione e qualità dei dati.

    Vai a Profilazione e qualità dei dati

  2. Fai clic sul nome della scansione della qualità dei dati di cui vuoi risolvere i problemi relativi ai record.

  3. Fai clic sulla scheda Cronologia dei job.

  4. Fai clic sull'ID del job che ha identificato errori di qualità dei dati.

  5. Nella finestra dei risultati del job che si apre, nella sezione Regole, individua la colonna Query per ottenere i record non riusciti. Fai clic su Copia query negli appunti per la regola non riuscita.

  6. Esegui la query in BigQuery per visualizzare i record che hanno causato l'errore del job.

gcloud

Non supportati.

REST

  1. Per ottenere il job che ha identificato gli errori di qualità dei dati, utilizza il metodo dataScans.get.

    Nell'oggetto della risposta, il campo failingRowsQuery mostra la query.

  2. Esegui la query in BigQuery per visualizzare i record che hanno causato l'errore del job.

Gestire le scansioni della qualità dei dati per una tabella specifica

I passaggi descritti in questo documento mostrano come gestire le scansioni della qualità dei dati nel tuo progetto utilizzando la pagina Cura dei metadati > Profilazione e qualità dei dati di BigQuery nella consoleGoogle Cloud .

Puoi anche creare e gestire le analisi della qualità dei dati quando lavori con una tabella specifica. Nella console Google Cloud , nella pagina BigQuery della tabella, utilizza la scheda Qualità dei dati. Segui questi passaggi:

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

    Nel riquadro Explorer, seleziona la tabella.

  2. Fai clic sulla scheda Qualità dei dati.

  3. A seconda che la tabella abbia un'analisi della qualità dei dati i cui risultati sono pubblicati come metadati di Dataplex Universal Catalog, puoi utilizzare le analisi della qualità dei dati della tabella nei seguenti modi:

    • I risultati della scansione della qualità dei dati sono pubblicati: i risultati dell'ultima scansione vengono visualizzati nella pagina.

      Per gestire le scansioni della qualità dei dati per questa tabella, fai clic su Analisi della qualità dei dati e poi scegli tra le seguenti opzioni:

      • Crea nuova scansione: crea una nuova scansione della qualità dei dati. Per saperne di più, consulta la sezione Crea un'analisi della qualità dei dati di questo documento. Quando crei una scansione dalla pagina dei dettagli di una tabella, la tabella è preselezionata.

      • Esegui ora: esegui la scansione.

      • Modifica configurazione di scansione: modifica le impostazioni, tra cui il nome visualizzato, i filtri e la pianificazione.

        Per modificare le regole di qualità dei dati, fai clic sulla scheda Qualità dei dati e poi sulla scheda Regole. Fai clic su Modifica regole. Aggiorna le regole e poi fai clic su Salva.

      • Gestisci autorizzazioni della scansione: controlla chi può accedere ai risultati della scansione. Per ulteriori informazioni, consulta la sezione Concedere l'accesso ai risultati dell'analisi della qualità dei dati di questo documento.

      • Visualizza risultati storici: visualizza informazioni dettagliate sui job di scansione della qualità dei dati precedenti. Per saperne di più, consulta le sezioni Visualizzare i risultati della scansione della qualità dei dati e Visualizzare i risultati della scansione cronologica di questo documento.

      • Visualizza tutte le scansioni: visualizza un elenco delle scansioni della qualità dei dati che si applicano a questa tabella.

    • I risultati della scansione della qualità dei dati non vengono pubblicati: seleziona una delle seguenti opzioni:

      • Crea scansione della qualità dei dati: crea una nuova scansione della qualità dei dati. Per saperne di più, consulta la sezione Crea un'analisi della qualità dei dati di questo documento. Quando crei una scansione dalla pagina dei dettagli di una tabella, la tabella è preselezionata.

      • Visualizza le scansioni esistenti: visualizza un elenco delle scansioni della qualità dei dati che si applicano a questa tabella.

Visualizzare le scansioni della qualità dei dati per una tabella

Per visualizzare le analisi della qualità dei dati che si applicano a una tabella specifica:

  1. Nella console Google Cloud , nella pagina Organizzazione dei metadati di BigQuery, vai alla scheda Profilazione e qualità dei dati.

    Vai a Profilazione e qualità dei dati

  2. Filtra l'elenco in base al nome della tabella e al tipo di scansione.

Aggiorna un'analisi della qualità dei dati

Puoi modificare varie impostazioni per una scansione della qualità dei dati esistente, ad esempio il nome visualizzato, i filtri, la pianificazione e le regole di qualità dei dati.

Console

  1. Nella console Google Cloud , nella pagina Organizzazione dei metadati di BigQuery, vai alla scheda Profilazione e qualità dei dati.

    Vai a Profilazione e qualità dei dati

  2. Fai clic sul nome di un'analisi della qualità dei dati.

  3. Per modificare le impostazioni, inclusi il nome visualizzato, i filtri e la programmazione, fai clic su Modifica. Modifica i valori e poi fai clic su Salva.

  4. Per modificare le regole di qualità dei dati, nella pagina dei dettagli dell'analisi, fai clic sulla scheda Regole attuali. Fai clic su Modifica regole. Aggiorna le regole e poi fai clic su Salva.

gcloud

Per aggiornare la descrizione di una scansione della qualità dei dati, utilizza il comando gcloud dataplex datascans update data-quality:

gcloud dataplex datascans update data-quality DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Sostituisci quanto segue:

  • DATASCAN: il nome della scansione della qualità dei dati da aggiornare.
  • LOCATION: La Google Cloud regione in cui è stata creata la scansione della qualità dei dati.
  • DESCRIPTION: La nuova descrizione della scansione della qualità dei dati.

REST

Per modificare una scansione della qualità dei dati, utilizza il metodo dataScans.patch.

Eliminare un'analisi della qualità dei dati

Console

  1. Nella console Google Cloud , nella pagina Organizzazione dei metadati di BigQuery, vai alla scheda Profilazione e qualità dei dati.

    Vai a Profilazione e qualità dei dati

  2. Fai clic sulla scansione che vuoi eliminare.

  3. Fai clic su Elimina e poi conferma quando richiesto.

gcloud

Per eliminare una scansione della qualità dei dati, utilizza il comando gcloud dataplex datascans delete:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION \
--async

Sostituisci le seguenti variabili:

  • DATASCAN: il nome della scansione della qualità dei dati da eliminare.
  • LOCATION: La Google Cloud regione in cui è stata creata la scansione della qualità dei dati.

REST

Per eliminare una scansione della qualità dei dati, utilizza il metodo dataScans.delete.

Passaggi successivi