Utilizzare la qualità dei dati automatica

Questa pagina descrive come creare un'analisi della qualità dei dati Dataplex.

Per saperne di più sulle analisi della qualità dei dati, consulta Informazioni sulla qualità dei dati automatica.

Prima di iniziare

  1. Abilitare l'API Dataplex.

    Abilitare l'API

  2. (Facoltativo) Se vuoi che Dataplex generi consigli per le regole di qualità dei dati in base ai risultati di un'analisi di profilazione dei dati, crea ed esegui l'analisi di profilazione dei dati.

Autorizzazioni

  • Per eseguire un'analisi della qualità dei dati su una tabella BigQuery, devi avere l'autorizzazione a leggere la tabella BigQuery e l'autorizzazione creare un job BigQuery nel progetto usato per scansionare la tabella.

  • Se la tabella BigQuery e l'analisi della qualità dei dati sono in progetti diversi, devi fornire al servizio Dataplex del progetto contenente l'autorizzazione di lettura per la scansione della qualità dei dati la tabella BigQuery corrispondente.

  • Se le regole sulla qualità dei dati fanno riferimento a tabelle aggiuntive, l'account di servizio deve disporre delle autorizzazioni di lettura sulle stesse tabelle.

  • Per ottenere le autorizzazioni necessarie per esportare i risultati della scansione in un tabella BigQuery, chiedi all'amministratore di concedere l'account di servizio Dataplex Ruolo IAM Editor dati (roles/bigquery.dataEditor) in il set di dati e la tabella dei risultati. Questo ruolo concede le seguenti autorizzazioni:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Se i dati BigQuery sono organizzati in un Dataplex , concedi all'account di servizio Dataplex Ruoli roles/dataplex.metadataReader e roles/dataplex.viewer. In alternativa, devi disporre di tutte le seguenti autorizzazioni:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Se stai analizzando una tabella BigQuery esterna Cloud Storage, concedi all'account di servizio Dataplex Ruolo roles/storage.objectViewer di Cloud Storage per il bucket. In alternativa, assegna all'account di servizio Dataplex le seguenti autorizzazioni:

    • storage.buckets.get
    • storage.objects.get
  • Se vuoi pubblicare i risultati dell'analisi della qualità dei dati nelle pagine BigQuery e Data Catalog della console Google Cloud per le tabelle di origine, devi disporre del ruolo IAM BigQuery Data Editor (roles/bigquery.dataEditor) o dell'autorizzazione bigquery.tables.update per la tabella.

  • Se hai bisogno di accedere alle colonne protette dai criteri di accesso a livello di colonna di BigQuery, assegna le autorizzazioni dell'account di servizio Dataplex per queste colonne. L'utente che crea o aggiorna una scansione dei dati deve disporre anche delle autorizzazioni per le colonne.

  • Se in una tabella sono abilitati criteri di accesso a livello di riga BigQuery, puoi analizzare solo le righe visibili all'account di servizio Dataplex. Tieni presente che i privilegi di accesso dei singoli utenti non vengono valutati per i criteri a livello di riga.

Autorizzazioni e ruoli della scansione dei dati

Per utilizzare la qualità automatica dei dati, devi disporre delle autorizzazioni per eseguire le analisi dei dati oppure un ruolo con autorizzazioni predefinite per eseguire analisi dei dati.

Nella tabella seguente sono elencate le autorizzazioni DataScan:

Nome autorizzazione Concede l'autorizzazione a:
dataplex.datascans.create Crea un DataScan
dataplex.datascans.delete Elimina un DataScan
dataplex.datascans.get Visualizzare i metadati operativi come ID o pianificazione, ma non risultati e regole
dataplex.datascans.getData Visualizza i dettagli di DataScan, inclusi regole e risultati
dataplex.datascans.list Elenco DataScan
dataplex.datascans.run Esegui un DataScan
dataplex.datascans.update Aggiorna la descrizione di un DataScan
dataplex.datascans.getIamPolicy Visualizza le autorizzazioni IAM attuali nella scansione
dataplex.datascans.setIamPolicy Imposta autorizzazioni IAM nell'analisi

Concedi agli utenti uno o più dei seguenti ruoli:

  • roles/dataplex.dataScanAdmin: accesso completo a DataScan risorse.
  • roles/dataplex.dataScanEditor: accesso in scrittura alle risorse DataScan.
  • roles/dataplex.dataScanViewer: accesso in lettura a DataScan risorse ad eccezione regole e risultati.
  • roles/dataplex.dataScanDataViewer: accesso in lettura a DataScan risorse, incluse regole e risultati.

Definisci le regole sulla qualità dei dati

Puoi definire regole di qualità dei dati utilizzando regole integrate o controlli SQL personalizzati. Se utilizzi Google Cloud CLI, puoi definire queste regole in un file JSON o YAML.

Gli esempi nelle sezioni seguenti mostrano come definire una varietà di qualità dei dati le regole del caso. Le regole convalidano una tabella di esempio contenente dati sulle transazioni dei clienti. Supponiamo che la tabella abbia il seguente schema:

Nome colonna Tipo di colonna Descrizione della colonna
transaction_timestamp Timestamp Timestamp della transazione. La tabella è partizionata in base a questo campo.
customer_id Stringa Un ID cliente nel formato di 8 lettere seguite da 16 cifre.
transaction_id Stringa L'ID transazione deve essere univoco nella tabella.
currency_id Stringa Una delle valute supportate.Il tipo di valuta deve corrispondere a una delle valute disponibili nella tabella delle dimensioni dim_currency.
quantità float Importo della transazione.
discount_pct float Percentuale di sconto. Questo valore deve essere compreso tra 0 e 100.

Definire regole sulla qualità dei dati utilizzando tipi di regole integrate

Le regole di esempio seguenti si basano sui tipi di regole integrate. Puoi creare basate su tipi di regole integrate usando la console Google Cloud o l'API. Dataplex potrebbe consigliare alcune di queste regole.

Nome colonna Tipo di regola Dimensione suggerita Parametri delle regole
transaction_id Controllo unicità Unicità Soglia: Not Applicable
amount Controllo null Completezza Soglia: 100%
customer_id Controllo regex (espressione regolare) Validità Espressione regolare: ^[0-9]{8}[a-zA-Z]{16}$
Soglia: 100%
currency_id Controllo del set di valori Validità Set di: USD,JPY,INR,GBP,CAN
Soglia: 100%

Definisci le regole sulla qualità dei dati utilizzando regole SQL personalizzate

Per creare regole SQL personalizzate, utilizza il framework seguente:

  • Quando crei una regola che valuta una riga alla volta, crea un'espressione che genera il numero di righe riuscite quando Dataplex valuta la query SELECT COUNTIF(CUSTOM_SQL_EXPRESSION) FROM TABLE. Dataplex controlla il numero di righe riuscite rispetto soglia.

  • Quando crei una regola che viene valutata nelle righe o utilizza una condizione della tabella, crea un'espressione che restituisca un risultato positivo o negativo quando Dataplex valuta la querySELECT IF(CUSTOM_SQL_EXPRESSION) FROM TABLE.

  • Quando crei una regola che valuta lo stato non valido di un set di dati, fornisci un'istruzione che restituisce righe non valide. Se vengono restituite delle righe, la regola non riesce. Ometti il punto e virgola finale dall'istruzione SQL.

  • Puoi fare riferimento a una tabella dell'origine dati e a tutti i relativi filtri di precondizionamento utilizzando il parametro di riferimento dati ${data()} in una regola, anziché menzionare esplicitamente la tabella di origine e i relativi filtri. Alcuni esempi di filtri precondizionanti sono i filtri delle righe, le percentuali di campionamento e i filtri incrementali. Il parametro ${data()} è sensibile alle maiuscole.

Le regole di esempio seguenti si basano su regole SQL personalizzate.

Tipo di regola Descrizione regola Espressione SQL
Condizione riga Controlla se il valore dell'attributo discount_pct è compreso tra 0 e 100. 0 <discount_pct E discount_pct < 100
Condizione di riga Controllo dei riferimenti per confermare che currency_id sia uno dei valute supportate. currency_id in (select id from my_project_id.dim_dataset.dim_currency)
Condizione tabella Espressione SQL aggregata che verifica se la media di discount_pct è compresa tra il 30% e il 50%. 30<avg(discount) AND avg(discount) <50
Condizione di riga Controlla se una data non è nel futuro. TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()
Condizione tabella Una funzione definita dall'utente (UDF) BigQuery per verificare che l'importo medio della transazione sia inferiore a un valore predefinito valore per paese. Crea la funzione definita dall'utente (JavaScript) eseguendo questo comando :
        CREATE OR REPLACE FUNCTION
        myProject.myDataset.average_by_country (
          country STRING, average FLOAT64)
        RETURNS BOOL LANGUAGE js AS R"""
        if (country = "CAN" && average < 5000){
          return 1
        } else if (country = "IND" && average < 1000){
          return 1
        } else { return 0 }
        """;
       
Regola di esempio per controllare l'importo medio delle transazioni per country=CAN.
        myProject.myDataset.average_by_country(
        "CAN",
        (SELECT avg(amount) FROM
          myProject.myDataset.transactions_table
            WHERE currency_id = 'CAN'
        ))
      
Condizione tabella Un file BigQuery ML di previsione per identificare le anomalie in discount_pct. Controlla se deve essere applicato uno sconto in base a customer, currency e transaction. La regola controlla se la previsione corrisponde al valore effettivo almeno il 99% delle volte. Ipotesi: la il modello ML viene creato prima di usare la regola. Crea il modello ML utilizzando il seguente comando:
  CREATE MODEL
  model-project-id.dataset-id.model-name
        OPTIONS(model_type='logistic_reg') AS
  SELECT
  IF(discount_pct IS NULL, 0, 1) AS label,
  IFNULL(customer_id, "") AS customer,
  IFNULL(currency_id, "") AS currency,
  IFNULL(amount, 0.0) AS amount
  FROM
  `data-project-id.dataset-id.table-names`
  WHERE transaction_timestamp < '2022-01-01';
  
La seguente regola verifica se la precisione della previsione è superiore al 99%.
      SELECT
        accuracy > 0.99
      FROM
       ML.EVALUATE
        (MODEL model-project-id.dataset-id.model-name,
         (
          SELECT
            customer_id,
            currency_id,
            amount,
            discount_pct
          FROM
            data-project-id.dataset-id.table-names
          WHERE transaction_timestamp > '2022-01-01';
         )
        )
    
Condizione riga Una previsione di BigQuery ML per identificare le anomalie in discount_pct. La funzione controlla se deve essere applicato uno sconto in base a customer, currency e transaction. La regola identifica tutte le occorrenze in cui la previsione non corrisponde. Presupposto: il modello ML viene creato prima di utilizzare la regola. crea l'ML utilizzando il comando seguente:
  CREATE MODEL
  model-project-id.dataset-id.model-name
        OPTIONS(model_type='logistic_reg') AS
  SELECT
  IF(discount_pct IS NULL, 0, 1) AS label,
  IFNULL(customer_id, "") AS customer,
  IFNULL(currency_id, "") AS currency,
  IFNULL(amount, 0.0) AS amount
  FROM
  `data-project-id.dataset-id.table-names`
  WHERE transaction_timestamp < '2022-01-01';
  
La seguente regola verifica se la previsione dello sconto corrisponde alla effettivo per ogni riga.
       IF(discount_pct > 0, 1, 0)
          =(SELECT predicted_label FROM
           ML.PREDICT(
            MODEL model-project-id.dataset-id.model-name,
              (
                SELECT
                  customer_id,
                  currency_id,
                  amount,
                  discount_pct
                FROM
                  data-project-id.dataset-id.table-names AS t
                    WHERE t.transaction_timestamp =
                     transaction_timestamp
                   LIMIT 1
              )
            )
         )
    
Asserzione SQL Verifica che il valore discount_pct sia superiore al 30% per oggi controllando se esistono righe con una percentuale di sconto inferiore o uguale a 30. SELECT * FROM my_project_id.dim_dataset.dim_currency WHERE discount_pct <= 30 AND transaction_timestamp >= current_date()
Asserzione SQL (con parametro di riferimento dati)

Controlla se il valore di discount_pct è superiore al 30% per tutte le variabili attualmente supportate.

Il filtro della data transaction_timestamp >= current_date() è applicato come filtro di riga nella tabella dell'origine dati.

Il parametro del riferimento dati ${data()} agisce come segnaposto per my_project_id.dim_dataset.dim_currency WHERE transaction_timestamp >= current_date() e applica il filtro di riga.

SELECT * FROM ${data()} WHERE discount_pct > 30

Definisci le regole sulla qualità dei dati utilizzando gcloud CLI

Il file YAML di esempio riportato di seguito utilizza alcune delle stesse regole del regole di esempio che utilizzano i tipi integrati e regole SQL personalizzate di esempio. Puoi utilizzare questo file YAML come input per il comando gcloud CLI.

rules:
- uniquenessExpectation: {}
  column: transaction_id
  dimension: UNIQUENESS
- nonNullExpectation: {}
  column: amount
  dimension: COMPLETENESS
  threshold: 1
- regexExpectation:
    regex: '^[0-9]{8}[a-zA-Z]{16}$'
  column : customer_id
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- setExpectation :
    values :
    - 'USD'
    - 'JPY'
    - 'INR'
    - 'GBP'
    - 'CAN'
  column : currency_id
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- rangeExpectation:
    minValue : '0'
    maxValue : '100'
  column : discount_pct
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- rowConditionExpectation:
    sqlExpression : 0 < `discount_pct` AND `discount_pct` < 100
  column: discount_pct
  dimension: VALIDITY
  threshold: 1
- rowConditionExpectation:
    sqlExpression : currency_id in (select id from `my_project_id.dim_dataset.dim_currency`)
  column: currency_id
  dimension: VALIDITY
  threshold: 1
- tableConditionExpectation:
    sqlExpression : 30 < avg(discount_pct) AND avg(discount_pct) < 50
  dimension: VALIDITY
- rowConditionExpectation:
    sqlExpression : TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()
  column: transaction_timestamp
  dimension: VALIDITY
  threshold: 1
- sqlAssertion:
    sqlStatement : SELECT * FROM `my_project_id.dim_dataset.dim_currency` WHERE discount_pct > 100
  dimension: VALIDITY

Crea un'analisi della qualità dei dati

Console

  1. Nella console Google Cloud, vai alla pagina Qualità dei dati.

    Vai a Qualità dei dati

  2. Fai clic su Crea analisi della qualità dei dati.

  3. Nella finestra Definisci analisi, compila i seguenti campi:

    1. Inserisci un Nome visualizzato.

    2. L'ID scansione viene generato automaticamente se non fornisci un ID personale. Consulta la convenzione di denominazione delle risorse.

    3. (Facoltativo) Inserisci una Descrizione.

    4. Nel campo Table (Tabella), fai clic su Sfoglia, scegli la tabella e fai clic su Seleziona. Dataplex supporta solo e tabelle BigQuery.

      Per le tabelle in set di dati multiregionali, scegli una regione in cui creare durante la scansione dei dati.

      Per sfogliare le tabelle organizzate all'interno del lake Dataplex, fai clic su Sfoglia all'interno dei lake Dataplex.

    5. Nel campo Ambito, scegli Incrementale o Interi dati.

      • Se scegli Incrementale: nel campo Colonna Timestamp: seleziona una colonna di tipo DATE o TIMESTAMP da una tabella BigQuery che aumenta in modo monotonico e può utilizzati per identificare nuovi record. Può essere una colonna che partiziona tabella.
    6. (Facoltativo) Aggiungi etichette. Le etichette sono key:value coppie che consentono di raggruppare insieme o con altre risorse Google Cloud.

    7. Per filtrare i dati, fai clic su Filtri. Seleziona il filtro righe. Il valore di input per il filtro riga deve essere un'espressione SQL valida che può essere utilizzata all'interno di una clausola WHERE nella sintassi SQL standard di BigQuery. Ad esempio: col1 >= 0. Il filtro può essere una combinazione di più condizioni di colonna. Per ad esempio col1 >= 0 AND col2 < 10.

    8. Per campionare i dati, nell'elenco Dimensioni di campionamento seleziona una percentuale di campionamento. Scegli un valore percentuale compreso tra 0,0% e 100,0% con un massimo di 3 cifre decimali. Per dimensioni più grandi set di dati, scegli una percentuale di campionamento più bassa. Ad esempio, per una tabella di circa 1 PB, se inserisci un valore compreso tra lo 0,1% e l'1%, Dataplex esegue il campionamento di 1-10 TB di dati. Per scansioni incrementali dei dati, Dataplex applica il campionamento l'ultimo incremento.

    9. Per pubblicare i risultati dell'analisi della qualità dei dati nel Nelle pagine di BigQuery e Data Catalog nel Nella console Google Cloud per la tabella di origine, fai clic sull'icona Pubblicare i risultati in BigQuery e Casella di controllo UI di Dataplex Catalog. Puoi visualizzare i risultati più recenti della scansione nella scheda Qualità dei dati del Pagine BigQuery e Data Catalog per l'origine tabella. Per consentire agli utenti di accedere ai risultati della scansione pubblicati, consulta Condividere i risultati pubblicati. L'opzione di pubblicazione potrebbe non essere disponibile nei seguenti casi:

      • Non disponi delle autorizzazioni necessarie per questa tabella.
      • È impostata un'altra analisi della qualità dei dati per pubblicare i risultati.

      Per ulteriori informazioni sulle autorizzazioni necessarie per visualizzare pubblicati, consulta la sezione Autorizzazioni.

    10. Fai clic su Continua.

  4. Nella finestra Pianifica, scegli una delle seguenti opzioni:

    • Ripeti: esegui il job di analisi della qualità dei dati in base a una pianificazione: giornaliera, settimanale, mensile o personalizzata. Specifica la frequenza di esecuzione della scansione a che ora. Se scegli Personalizzata, utilizza il formato cron per specificare la pianificazione.

    • On demand: esegui il job di analisi della qualità dei dati on demand.

    Fai clic su Continua.

  5. Nella finestra Regole sulla qualità dei dati, definisci le regole per per questa analisi della qualità dei dati. Fai clic su Aggiungi regole e scegli una delle seguenti opzioni.

    • Suggerimenti basati sul profilo: crea regole dal Suggerimenti basati su un'analisi di profilazione dei dati esistente.

      1. Scegli colonne: seleziona le colonne per cui visualizzare le regole consigliate.

      2. Analizza il progetto: suggerimenti basati su dati esistenti analisi di profilazione. Per impostazione predefinita, Dataplex seleziona la profilazione dallo stesso progetto in cui stai creando i dati. scansione della qualità. Se hai creato la scansione in un altro progetto, devi specificare il progetto da cui eseguire il pull delle scansioni del profilo.

      3. Scegli i risultati del profilo: in base alle colonne e al progetto selezionare, vengono visualizzati più risultati di profilo.

      4. Seleziona uno o più risultati del profilo e fai clic su OK. Questo per compilare un elenco di regole tra cui scegliere.

      5. Seleziona le regole da modificare selezionando le caselle e facendo clic su Seleziona. Una volta selezionate, le regole vengono aggiunte alla regola corrente dall'elenco di lettura. Poi potrai modificare le regole.

    • Tipi di regole integrate: crea regole da regole predefinite. Consulta l'elenco delle regole predefinite.

      1. Scegli colonne: seleziona le colonne per cui selezionare le regole.

      2. Scegli i tipi di regole: in base alle colonne selezionate, vengono visualizzati più tipi di regole da selezionare.

      3. Seleziona uno o più tipi di regole e fai clic su OK. Viene compilato un elenco di regole tra cui scegliere.

      4. Seleziona le regole da modificare selezionando le caselle e facendo clic su Seleziona. Una volta selezionate, le regole vengono aggiunte all'elenco delle regole correnti. Poi, puoi modificare le regole.

    • Regola per il controllo delle righe SQL: crea una regola SQL personalizzata da applicare a ogni riga (SQL regola per il controllo delle righe).

      1. In Dimensione, scegli una dimensione.

      2. In Soglia di superamento, scegli la percentuale di record che deve superare il controllo.

      3. In Nome colonna, scegli una colonna.

      4. Nel campo Fornisci un'espressione SQL, inserisci un'espressione SQL che restituisce un valore booleano true (controllo superato) o false (errore). Per ulteriori informazioni, vedi Tipi di regole SQL personalizzate supportati e gli esempi in Definire le regole sulla qualità dei dati di questo documento.

      5. Fai clic su Aggiungi.

    • Regola per il controllo aggregato SQL: crea un'istanza SQL personalizzata per la condizione della tabella.

      1. In Dimensione, scegli una dimensione.

      2. In Nome colonna, scegli una colonna.

      3. Nel campo Fornisci un'espressione SQL, inserisci un'espressione SQL che restituisce un valore booleano true (controllo superato) o false (errore). Per ulteriori informazioni, vedi Tipi di regole SQL personalizzate supportati e gli esempi in Definire le regole sulla qualità dei dati di questo documento.

      4. Fai clic su Aggiungi.

    • Regola di asserzione SQL: crea una regola di asserzione SQL personalizzata da verificare per uno stato non valido dei dati.

      1. In Dimensione, scegli una dimensione.

      2. (Facoltativo) In Nome colonna, scegli una colonna.

      3. Nel campo Fornisci un'istruzione SQL, inserisci un'istruzione SQL. che restituisce le righe che corrispondono allo stato non valido. Se sono presenti righe viene restituito questo errore. Ometti il punto e virgola finale dall'istruzione SQL. Per ulteriori informazioni, vedi Tipi di regole SQL personalizzate supportati e gli esempi in Definire le regole sulla qualità dei dati di questo documento.

      4. Fai clic su Aggiungi.

    Dataplex consente nomi personalizzati per le regole sulla qualità dei dati per il monitoraggio e gli avvisi. Per qualsiasi regola sulla qualità dei dati, puoi facoltativamente, assegnare un nome e una descrizione alla regola personalizzata. Per farlo, modifica una regola e specifica i seguenti dettagli:

    • Nome regola: inserisci un nome per la regola personalizzata contenente fino a 63 caratteri. Il nome della regola può includere lettere (a-z, A-Z), cifre (0-9) e trattini (-), deve iniziare con una lettera e terminare con un numero o una lettera.
    • Descrizione: inserisci una descrizione della regola con un massimo di di 1024 caratteri.

    Fai clic su Continua.

  6. (Facoltativo) Esporta i risultati della scansione in uno standard BigQuery tabella. Fai clic su Sfoglia per selezionare un'istanza BigQuery esistente per archiviare i risultati dell'analisi della qualità dei dati.

    Se la tabella specificata non esiste, Dataplex la crea per te. Se utilizzi una tabella esistente, assicurati che sia compatibile con lo schema di esportazione della tabella.

  7. Fai clic su Crea.

    Dopo aver creato la scansione, puoi eseguirla in qualsiasi momento facendo clic su Esegui ora.

gcloud

Per creare un'analisi della qualità dei dati, utilizza Comando gcloud dataplex datascans create data-quality.

Se i dati di origine sono organizzati in un lake Dataplex, includi --data-source-entity flag:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-entity=DATA_SOURCE_ENTITY

Se i dati di origine non sono organizzati in un lake Dataplex, includi il flag --data-source-resource:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-resource=DATA_SOURCE_RESOURCE

Sostituisci le seguenti variabili:

  • DATASCAN: il nome della scansione della qualità dei dati.
  • LOCATION: la regione Google Cloud in cui per creare l'analisi della qualità dei dati.
  • DATA_QUALITY_SPEC_FILE: il percorso del file JSON o File YAML contenente le specifiche per l'analisi della qualità dei dati. Il file può essere un file locale o un percorso Cloud Storage con prefisso gs://. Utilizza questo file per specificare le regole di qualità dei dati per la scansione. Puoi anche specificare ulteriori dettagli in questo file, come filtri, percentuale di campionamento, e post-scansione, come l'esportazione in BigQuery o l'invio notifiche via email. Consulta le documentazione per la rappresentazione JSON.
  • DATA_SOURCE_ENTITY: Dataplex che contiene i dati per l'analisi della qualità dei dati. Ad esempio: projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
  • DATA_SOURCE_RESOURCE: il nome della risorsa che contiene i dati per l'analisi della qualità dei dati. Ad esempio: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

REST

Utilizza Explorer API per creare un'analisi della qualità dei dati.

Se vuoi creare regole per l'analisi della qualità dei dati utilizzando i consigli sulle regole basati sui risultati di un'analisi di profilazione dei dati, ottieni i consigli chiamando il metodo dataScans.jobs.generateDataQualityRules nell'analisi di profilazione dei dati.

Esporta schema della tabella

Per esportare i risultati dell'analisi della qualità dei dati in un ambiente BigQuery esistente: assicurati che sia compatibile con il seguente schema:

Nome colonna Tipo di dati della colonna Nome del campo secondario
(se applicabile)
Tipo di dati del campo secondario Modalità Esempio
data_quality_scan struct/record resource_name string annullabile //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string nullable dataplex-back-end-dev-project
location string nullable us-central1
data_scan_id string annullabile test-datascan
data_source struct/record resource_name string nullable Richiesta di assistenza relativa all'entità:
//dataplex.googleapis.com/projects/dataplex-back-end-dev-project/locations/europe-west2/lakes/a0-datascan-test-lake/zones/a0-datascan-test-zone/entities/table1

Custodia per tavolo: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
dataplex_entity_project_id string annullabile dataplex-back-end-dev-project
dataplex_entity_project_number integer nullable 123456789
dataplex_lake_id string annullabile (Valido solo se l'origine è un'entità)
test-lake
dataplex_zone_id string annullabile (Valido solo se l'origine è un'entità)
test-zone
dataplex_entity_id string nullable (Valido solo se l'origine è un'entità)
test-entity
table_project_id string annullabile test-project
table_project_number integer nullable 987654321
dataset_id string annullabile (Valido solo se l'origine è una tabella)
test-dataset
table_id string annullabile (Valido solo se l'origine è una tabella)
test-table
data_quality_job_id string annullabile caeba234-cfde-4fca-9e5b-fe02a9812e38
data_quality_job_configuration json trigger string annullabile ondemand/schedule
incremental boolean annullabile true/false
sampling_percent float annullabile (0-100)
20.0 (indica il 20%)
row_filter string annullabile col1 >= 0 AND col2 < 10
job_labels json nullable {"key1":value1}
job_start_time timestamp annullabile 2023-01-01 00:00:00 UTC
job_end_time timestamp annullabile 2023-01-01 00:00:00 UTC
job_rows_scanned integer annullabile 7500
rule_name string annullabile test-rule
rule_type string annullabile Range Check
rule_evaluation_type string annullabile Per row
rule_column string annullabile Rule only attached to a certain column
rule_dimension string nullable UNIQUENESS
job_quality_result struct/record passed boolean nullable true/false
score float nullable 90.8
job_dimension_result json annullabile {"ACCURACY":{"passed":true,"score":100},"CONSISTENCY":{"passed":false,"score":60}}
rule_threshold_percent float annullabile (0,0-100,0)
Rule-threshold-pct in API * 100
rule_parameters json annullabile {min: 24, max:5345}
rule_pass boolean nullable True
rule_rows_evaluated integer nullable 7400
rule_rows_passed integer annullabile 3
rule_rows_null integer annullabile 4
rule_failed_records_query string annullabile "SELECT * FROM `test-project.test-dataset.test-table` WHERE (NOT((`cTime` >= '15:31:38.776361' and `cTime` <= '19:23:53.754823') IS TRUE));"

Quando configuri BigQueryExport per un job di analisi della qualità dei dati, segui queste linee guida:

  • Per il campo resultsTable, utilizza il formato: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
  • Utilizzare una tabella BigQuery standard.
  • Se la tabella non esiste quando l'analisi viene creata o aggiornata, Dataplex crea la tabella per te.
  • Per impostazione predefinita, la tabella è partizionata ogni giorno nella colonna job_start_time.
  • Se vuoi che la tabella sia partizionata in altre configurazioni o se una partizione non è necessaria, quindi ricrea la tabella con schema e configurazioni, quindi fornire la tabella creata in precedenza come .
  • Assicurati che la tabella dei risultati si trovi nella stessa posizione della tabella di origine.
  • Se VPC-SC è configurato nel progetto, la tabella dei risultati deve trovarsi lo stesso perimetro VPC-SC della tabella di origine.
  • Se la tabella viene modificata durante la fase di esecuzione della scansione, il job in esecuzione corrente viene esportato nella tabella dei risultati precedente e la modifica della tabella viene applicata dal job di scansione successivo.
  • Non modificare lo schema della tabella. Se hai bisogno di colonne personalizzate, crea una vista sul tavolo.
  • Per ridurre i costi, imposta una scadenza per la partizione in base al caso d'uso. Per ulteriori informazioni, scopri come impostare la scadenza della partizione.

Esegui un'analisi della qualità dei dati

Console

  1. Nella console Google Cloud, vai alla pagina Qualità dei dati.

    Vai a Qualità dei dati

  2. Fai clic sull'analisi della qualità dei dati da eseguire.

  3. Fai clic su Esegui ora.

gcloud

Per eseguire un'analisi della qualità dei dati, utilizza Comando gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION \

Sostituisci le seguenti variabili:

  • LOCATION: la regione Google Cloud in cui è stata creata la scansione della qualità dei dati.
  • DATASCAN: il nome della scansione della qualità dei dati.

REST

Utilizza Explorer API per eseguire l'analisi della qualità dei dati.

Visualizzare i risultati dell'analisi della qualità dei dati

Console

  1. Nella console Google Cloud, vai alla pagina Qualità dei dati.

    Vai a Qualità dei dati

  2. Per visualizzare i risultati dettagliati di un'analisi, fai clic sul nome dell'analisi.

    • La sezione Panoramica mostra informazioni sugli ultimi sette job, inclusa la data di esecuzione della scansione, il numero di record analizzati in ogni job, se sono stati superati tutti i controlli di qualità dei dati, se erano non riusciti, il numero di controlli della qualità dei dati non riusciti e quali dimensioni non riuscite.

    • La sezione Configurazione dell'analisi della qualità dei dati mostra i dettagli relativi alla scansione.

  3. Per visualizzare i punteggi della qualità dei dati che indicano la percentuale di regole superate, fai clic sulla scheda Cronologia job. Quindi, fai clic su un ID job.

di Gemini Advanced.

gcloud

Per visualizzare i risultati di un job di analisi della qualità dei dati, utilizza Comando gcloud dataplex datascans jobs describe:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Sostituisci le seguenti variabili:

  • JOB: l'ID dell'attività di analisi della qualità dei dati.
  • LOCATION: la regione Google Cloud in cui vengono inseriti i dati scansione della qualità creata.
  • DATASCAN: il nome della scansione della qualità dei dati del job a cui appartiene.
  • --view=FULL: per visualizzare il risultato del job di scansione, specifica FULL.

REST

Utilizza Explorer API per visualizzare i risultati di un'analisi della qualità dei dati.

Visualizza i risultati storici della scansione

Dataplex salva la cronologia delle analisi della qualità dei dati degli ultimi 300 lavori o nell'ultimo anno, a seconda dell'evento che si verifica per primo.

Console

  1. Nella console Google Cloud, vai alla pagina Qualità dei dati.

    Vai a Qualità dei dati

  2. Fai clic sul nome di una scansione.

  3. Fai clic sulla scheda Cronologia dei job.

    La scheda Cronologia job fornisce informazioni sui job passati. Riepiloga tutti i job, il numero di record analizzati in ogni job, lo stato del job, il tempo il job è stato eseguito, indica se ogni regola è stata superata o meno e altro ancora.

  4. Per visualizzare informazioni dettagliate su un job, fai clic su uno dei job nella Colonna ID job.

gcloud

Per visualizzare tutti i job di una scansione della qualità dei dati, utilizza Comando gcloud dataplex datascans jobs list:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN \

Sostituisci le seguenti variabili:

  • LOCATION: la regione Google Cloud in cui vengono inseriti i dati scansione della qualità creata.
  • DATASCAN: il nome della scansione della qualità dei dati da visualizzare per tutti i lavori.

REST

Utilizza Explorer API per visualizzare tutti i job di scansione.

Condividi i risultati pubblicati

Durante la creazione di un'analisi della qualità dei dati, se hai scelto di pubblicare i risultati della scansione nelle pagine di BigQuery e Data Catalog nella nella console Google Cloud, i risultati dell'ultima scansione saranno disponibili in scheda Qualità dei dati in queste pagine.

Puoi consentire agli utenti della tua organizzazione di accedere alla scansione pubblicata che consentono di analizzare i dati e visualizzare i risultati. Per concedere l'accesso ai risultati della scansione:

  1. Nella console Google Cloud, vai alla pagina Qualità dei dati.

    Vai a Qualità dei dati

  2. Fai clic sull'analisi della qualità dei dati di cui vuoi condividere i risultati.

  3. Vai alla scheda Autorizzazioni.

  4. Fai clic su Concedi accesso.

  5. Nel campo Nuove entità, aggiungi quella a cui vuoi concedere l'accesso.

  6. Nel campo Seleziona un ruolo, seleziona Visualizzatore dati DataScan Dataplex.

  7. Fai clic su Salva.

Per rimuovere l'accesso ai risultati della scansione pubblicati per un'entità, segui questi passaggi passaggi:

  1. Nella console Google Cloud, vai alla pagina Qualità dei dati.

    Vai a Qualità dei dati

  2. Fai clic sull'analisi della qualità dei dati di cui vuoi condividere i risultati.

  3. Vai alla scheda Autorizzazioni.

  4. Seleziona l'entità per cui vuoi rimuovere il ruolo DataViewer di DataScan Dataplex.

  5. Fai clic su Rimuovi accesso.

  6. Fai clic su Conferma.

Imposta avvisi in Cloud Logging

Per impostare avvisi per errori di qualità dei dati utilizzando i log in Cloud Logging, segui questi passaggi:

Console

  1. Nella console Google Cloud, vai a Cloud Logging Esplora log.

    Vai a Esplora log

  2. Inserisci la query nella finestra Query. Vedi le query di esempio.

  3. Fai clic su Esegui query.

  4. Fai clic su Crea avviso. Si apre un riquadro laterale.

  5. Inserisci il nome del criterio di avviso e fai clic su Avanti.

  6. Rivedi la query.

    1. Fai clic sul pulsante Anteprima log per testare la query. Vengono visualizzati i log con condizioni di corrispondenza.

    2. Fai clic su Avanti.

  7. Imposta l'intervallo di tempo tra le notifiche e fai clic su Avanti.

  8. Definisci chi deve ricevere la notifica dell'avviso e fai clic su Salva per creare il criterio di avviso.

In alternativa, puoi configurare e modificare gli avvisi navigando nella Console Google Cloud in Monitoring &gt; Avvisi.

gcloud

Non supportati.

REST

Utilizza Explorer API per impostare avvisi in Cloud Logging.

Query di esempio per l'impostazione di avvisi a livello di job o dimensione

  • Una query di esempio per impostare avvisi sugli errori complessivi di qualità dei dati relativi a una qualità dei dati scansione:

    resource.type="dataplex.googleapis.com/DataScan"
    AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
    AND resource.labels.resource_container="projects/112233445566"
    AND resource.labels.datascan_id="a0-test-dec6-dq-3"
    AND NOT jsonPayload.dataQuality.passed=true
    
  • Una query di esempio per impostare avvisi sugli errori di qualità dei dati per una dimensione (ad esempio, univocità) di una determinata analisi della qualità dei dati:

    resource.type="dataplex.googleapis.com/DataScan"
    AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
    AND resource.labels.resource_container="projects/112233445566"
    AND resource.labels.datascan_id="a0-test-dec6-dq-3"
    AND jsonPayload.dataQuality.dimensionPassed.UNIQUENESS=false
    
  • Una query di esempio per impostare avvisi sugli errori di qualità dei dati per una tabella.

    • Imposta avvisi sugli errori di qualità dei dati per una tabella BigQuery che non è organizzata in un lake Dataplex:

      resource.type="dataplex.googleapis.com/DataScan"
      AND jsonPayload.dataSource="//bigquery.googleapis.com/projects/test-project/datasets/testdataset/table/chicago_taxi_trips"
      AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
      AND resource.labels.resource_container="projects/112233445566"
      AND NOT jsonPayload.dataQuality.passed=true
      
    • Imposta avvisi sugli errori relativi alla qualità dei dati per una tabella BigQuery organizzato in un lake Dataplex:

      resource.type="dataplex.googleapis.com/DataScan"
      AND jsonPayload.dataSource="projects/test-project/datasets/testdataset/table/chicago_taxi_trips"
      AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
      AND resource.labels.resource_container="projects/112233445566"
      AND NOT jsonPayload.dataQuality.passed=true
      

Query di esempio da impostare per gli avvisi delle regole

  • Una query di esempio per impostare avvisi per tutte le regole sulla qualità dei dati in errore con nome della regola personalizzata specificato per un'analisi della qualità dei dati:

    resource.type="dataplex.googleapis.com/DataScan"
    AND jsonPayload.ruleName="custom-name"
    AND jsonPayload.result="FAILED"
    
  • Una query di esempio per impostare avvisi per tutte le regole sulla qualità dei dati non funzionanti di una specifica tipo di valutazione per un'analisi della qualità dei dati:

    resource.type="dataplex.googleapis.com/DataScan"
    AND jsonPayload.evalutionType="PER_ROW"
    AND jsonPayload.result="FAILED"
    
  • Una query di esempio per impostare avvisi per tutte le regole sulla qualità dei dati con errori per una colonna nella tabella utilizzata per un'analisi della qualità dei dati:

    resource.type="dataplex.googleapis.com/DataScan"
    AND jsonPayload.column="CInteger"
    AND jsonPayload.result="FAILED"
    

Risolvere un errore relativo alla qualità dei dati

Per ogni job con regole a livello di riga che hanno esito negativo, Dataplex fornisce una query per recuperare i record non riusciti. Esegui questa query per visualizzare i record non corrispondono alla regola.

Console

  1. Nella console Google Cloud, vai alla pagina Qualità dei dati.

    Vai a Qualità dei dati

  2. Fai clic sul nome della scansione di cui vuoi risolvere i problemi.

  3. Fai clic sulla scheda Cronologia dei job.

  4. Fai clic sull'ID del job che ha identificato errori di qualità dei dati.

  5. Nella finestra dei risultati del job che si apre, individua la colonna nella sezione Regole. Query per recuperare i record non riusciti. Fai clic su Copia query negli appunti per la regola non riuscita.

  6. Esegui la query in BigQuery per visualizzare i record che hanno causato l'errore del job.

gcloud

Non supportati.

REST

Utilizza Explorer API per visualizzare la query per ottenere i record non riusciti per i job non riuscito.

Aggiorna un'analisi della qualità dei dati

Console

  1. Nella console Google Cloud, vai alla pagina Qualità dei dati.

    Vai a Qualità dei dati

  2. Nella riga contenente la scansione da modificare, fai clic sui tre puntini verticali > Modifica.

  3. Modifica i valori.

  4. Fai clic su Salva.

gcloud

Per aggiornare la descrizione di un'analisi della qualità dei dati, utilizza il Comando gcloud dataplex datascans update data-quality:

gcloud dataplex datascans update data-quality DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Sostituisci quanto segue:

  • DATASCAN: il nome dell'analisi della qualità dei dati per aggiornamento.
  • LOCATION: la regione Google Cloud in cui è stata creata la scansione della qualità dei dati.
  • DESCRIPTION: la nuova descrizione dei dati scansione della qualità.

REST

Utilizza Explorer API per modificare l'analisi della qualità dei dati.

Eliminare un'analisi della qualità dei dati

Console

  1. Nella console Google Cloud, vai alla pagina Qualità dei dati.

    Vai a Qualità dei dati

  2. Fai clic sulla scansione da eliminare.

  3. Fai clic su Elimina.

gcloud

Per eliminare un'analisi della qualità dei dati, utilizza Comando gcloud dataplex datascans delete:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION \
--async

Sostituisci le seguenti variabili:

  • DATASCAN: il nome dell'analisi della qualità dei dati da eliminare.
  • LOCATION: la regione Google Cloud in cui vengono inseriti i dati scansione della qualità creata.

REST

Utilizza Explorer API per eliminare l'analisi della qualità dei dati.

Passaggi successivi