Questa pagina è stata tradotta dall'API Cloud Translation.

Utilizzare la qualità dei dati automatica

Questa pagina descrive come creare una scansione della qualità dei dati di Dataplex Universal Catalog.

Per scoprire di più sulle scansioni della qualità dei dati, consulta la sezione Informazioni sulla qualità dei dati automatica.

Prima di iniziare

Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API
(Facoltativo) Se vuoi che Dataplex Universal Catalog generi consigli per le regole di qualità dei dati in base ai risultati di una scansione del profilo dati, crea ed esegui la scansione del profilo dati.

Ruoli obbligatori

Per eseguire una scansione della qualità dei dati su una tabella BigQuery, devi disporre dell'autorizzazione per leggere la tabella BigQuery e dell'autorizzazione per creare un job BigQuery nel progetto utilizzato per scansionare la tabella.

Nota: Dataplex Universal Catalog non crea un job BigQuery nel tuo progetto. Tuttavia, hai bisogno di questa autorizzazione per creare un job DryRun per controllare le autorizzazioni per la tabella.
Se la tabella BigQuery e la scansione della qualità dei dati si trovano in progetti diversi, devi concedere all'account di servizio Dataplex Universal Catalog del progetto contenente la scansione della qualità dei dati l'autorizzazione di lettura per la tabella BigQuery corrispondente.

Nota :se non hai creato analisi della qualità dei dati o del profilo dei dati oppure non hai un lake Dataplex Universal Catalog in questo progetto, crea un identificatore di servizio eseguendo:gcloud beta services identity create --service=dataplex.googleapis.com. Questo comando restituisce un identificatore del servizio Dataplex Universal Catalog, se esistente.
Se le regole di qualità dei dati fanno riferimento a tabelle aggiuntive, il account di servizio del progetto di scansione deve disporre delle autorizzazioni di lettura per le stesse tabelle.
Per ottenere le autorizzazioni necessarie per esportare i risultati della scansione in una tabella BigQuery, chiedi all'amministratore di concedere al account di servizio Dataplex Universal Catalog il ruolo IAM Editor dati BigQuery (roles/bigquery.dataEditor) nel set di dati e nella tabella dei risultati. In questo modo vengono concesse le seguenti autorizzazioni:
- bigquery.datasets.get
- bigquery.tables.create
- bigquery.tables.get
- bigquery.tables.getData
- bigquery.tables.update
- bigquery.tables.updateData
Se i dati BigQuery sono organizzati in un lake Dataplex Universal Catalog, concedi all'account di servizio Dataplex Universal Catalog i ruoli IAM Lettore metadati Dataplex (roles/dataplex.metadataReader) e Visualizzatore Dataplex (roles/dataplex.viewer). In alternativa, devi disporre di tutte le seguenti autorizzazioni:
- dataplex.lakes.list
- dataplex.lakes.get
- dataplex.zones.list
- dataplex.zones.get
- dataplex.entities.list
- dataplex.entities.get
- dataplex.operations.get
Se esegui la scansione di una tabella esterna BigQuery da Cloud Storage, concedi all'account di servizio Dataplex Universal Catalog il ruolo Visualizzatore oggetti Storage (roles/storage.objectViewer) per il bucket. In alternativa, assegna all'account di servizio Dataplex Universal Catalog le seguenti autorizzazioni:
- storage.buckets.get
- storage.objects.get
Se vuoi pubblicare i risultati della scansione della qualità dei dati come metadati di Dataplex Universal Catalog, devi disporre del ruolo IAM Editor dati BigQuery (roles/bigquery.dataEditor) per la tabella e dell'autorizzazione dataplex.entryGroups.useDataQualityScorecardAspect per il gruppo di voci @bigquery nella stessa località della tabella. In alternativa, devi disporre del ruolo Editor Dataplex Catalog (roles/dataplex.catalogEditor) per il gruppo di voci @bigquery nella stessa posizione della tabella.

In alternativa, devi disporre di tutte le seguenti autorizzazioni:
- bigquery.tables.update - sul tavolo
- dataplex.entryGroups.useDataQualityScorecardAspect sul gruppo di voci @bigquery
In alternativa, devi disporre di tutte le seguenti autorizzazioni:
- dataplex.entries.update - sul gruppo di voci @bigquery
- dataplex.entryGroups.useDataQualityScorecardAspect sul gruppo di voci @bigquery
Se devi accedere a colonne protette da criteri di accesso a livello di colonna BigQuery, assegna all'account di servizio Dataplex Universal Catalog le autorizzazioni per queste colonne. L'utente che crea o aggiorna una scansione dei dati deve disporre anche delle autorizzazioni per le colonne.
Se una tabella ha abilitato le policy di accesso a livello di riga di BigQuery, puoi scansionare solo le righe visibili all'account di servizio del Catalogo universale Dataplex. Tieni presente che i privilegi di accesso del singolo utente non vengono valutati per le norme a livello di riga.

Ruoli di scansione dei dati obbligatori

Per utilizzare la qualità automatica dei dati, chiedi all'amministratore di concederti uno dei seguenti ruoli IAM:

Accesso completo alle risorse DataScan: Amministratore Dataplex DataScan (roles/dataplex.dataScanAdmin)
Per creare risorse DataScan: Dataplex DataScan Creator (roles/dataplex.dataScanCreator) sul progetto
Accesso in scrittura alle risorse DataScan: editor Dataplex DataScan (roles/dataplex.dataScanEditor)
Accesso in lettura alle risorse DataScan escluse regole e risultati: Dataplex DataScan Viewer (roles/dataplex.dataScanViewer)
Accesso in lettura alle risorse DataScan, incluse regole e risultati: Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer)

La tabella seguente elenca le autorizzazioni DataScan:

Nome dell'autorizzazione	Concede l'autorizzazione per svolgere le seguenti operazioni:
`dataplex.datascans.create`	Crea un `DataScan`
`dataplex.datascans.delete`	Eliminare un `DataScan`
`dataplex.datascans.get`	Visualizzare i metadati operativi come ID o pianificazione, ma non risultati e regole
`dataplex.datascans.getData`	Visualizzare i dettagli di `DataScan`, incluse regole e risultati
`dataplex.datascans.list`	Elenco `DataScan`
`dataplex.datascans.run`	Esegui un `DataScan`
`dataplex.datascans.update`	Aggiornare la descrizione di un `DataScan`
`dataplex.datascans.getIamPolicy`	Visualizza le autorizzazioni IAM correnti nella scansione
`dataplex.datascans.setIamPolicy`	Imposta le autorizzazioni IAM per la scansione

Definisci le regole sulla qualità dei dati

Puoi definire le regole di qualità dei dati utilizzando le regole integrate o i controlli SQL personalizzati. Se utilizzi Google Cloud CLI, puoi definire queste regole in un file JSON o YAML.

Gli esempi nelle sezioni seguenti mostrano come definire una serie di regole di qualità dei dati. Le regole convalidano una tabella di esempio che contiene dati sulle transazioni dei clienti. Supponi che la tabella abbia il seguente schema:

Nome colonna	Tipo di colonna	Descrizione colonna
transaction_timestamp	Timestamp	Timestamp della transazione. La tabella è partizionata in base a questo campo.
customer_id	Stringa	Un ID cliente nel formato di 8 lettere seguite da 16 cifre.
transaction_id	Stringa	L'ID transazione deve essere univoco in tutta la tabella.
currency_id	Stringa	Una delle valute supportate.Il tipo di valuta deve corrispondere a una delle valute disponibili nella tabella delle dimensioni `dim_currency`.
quantità	float	Importo della transazione.
discount_pct	float	Percentuale di sconto. Questo valore deve essere compreso tra 0 e 100.

Definisci regole sulla qualità dei dati utilizzando i tipi di regole integrati

Le seguenti regole di esempio si basano sui tipi di regole integrati. Puoi creare regole basate su tipi di regole integrate utilizzando la console Google Cloud o l'API. Dataplex Universal Catalog potrebbe consigliare alcune di queste regole.

Nome colonna	Tipo di regola	Dimensione suggerita	Parametri delle regole
`transaction_id`	Controllo unicità	Unicità	Soglia: `Not Applicable`
`amount`	Controllo NULL	Completezza	Soglia: `100%`
`customer_id`	Controllo regex (espressione regolare)	Validità	Espressione regolare: `^[0-9]{8}[a-zA-Z]{16}$` Soglia: `100%`
`currency_id`	Controllo valore-set	Validità	Set di: `USD,JPY,INR,GBP,CAN` Soglia: `100%`

Definisci regole sulla qualità dei dati utilizzando regole SQL personalizzate

Per creare regole SQL personalizzate, utilizza il seguente framework:

Quando crei una regola che valuta una riga alla volta, crea un'espressione che genera il numero di righe riuscite quando Dataplex Universal Catalog valuta la query SELECT COUNTIF(CUSTOM_SQL_EXPRESSION) FROM TABLE. Dataplex Universal Catalog controlla il numero di righe riuscite rispetto alla soglia.
Quando crei una regola che valuta le righe o utilizza una condizione di tabella, crea un'espressione che restituisce un esito positivo o negativo quando Dataplex Universal Catalog valuta la query SELECT IF(CUSTOM_SQL_EXPRESSION) FROM TABLE.
Quando crei una regola che valuta lo stato non valido di un set di dati, fornisci un'istruzione che restituisce le righe non valide. Se vengono restituite delle righe, la regola non riesce. Ometti il punto e virgola finale dall'istruzione SQL.
Puoi fare riferimento a una tabella dell'origine dati e a tutti i relativi filtri di precondizione utilizzando il parametro di riferimento ai dati ${data()} in una regola, anziché menzionare esplicitamente la tabella di origine e i relativi filtri. Esempi di filtri di precondizione includono filtri delle righe, percentuali di campionamento e filtri incrementali. Il parametro ${data()} è sensibile alle maiuscole.

Le seguenti regole di esempio si basano su regole SQL personalizzate.

Tipo di regola	Descrizione regola	Espressione SQL
Condizione a livello di riga	Controlla se il valore di `discount_pct` è compreso tra 0 e 100.	`0` <`discount_pct` AND `discount_pct` < `100`
Condizione a livello di riga	Controlla il riferimento per verificare che `currency_id` sia una delle valute supportate.	`currency_id in (select id from my_project_id.dim_dataset.dim_currency)`
Condizione della tabella	Espressione SQL aggregata che verifica se la media di `discount_pct` è compresa tra il 30% e il 50%.	`30<avg(discount) AND avg(discount) <50`
Condizione a livello di riga	Controlla se una data non è nel futuro.	`TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()`
Condizione della tabella	Una funzione definita dall'utente (UDF) di BigQuery per verificare che l'importo medio delle transazioni sia inferiore a un valore predefinito per paese. Crea la UDF (JavaScript) eseguendo il seguente comando: CREATE OR REPLACE FUNCTION myProject.myDataset.average_by_country ( country STRING, average FLOAT64) RETURNS BOOL LANGUAGE js AS R""" if (country = "CAN" && average < 5000){ return 1 } else if (country = "IND" && average < 1000){ return 1 } else { return 0 } """;	Regola di esempio per controllare l'importo medio della transazione per `country=CAN`. myProject.myDataset.average_by_country( "CAN", (SELECT avg(amount) FROM myProject.myDataset.transactions_table WHERE currency_id = 'CAN' ))
Condizione della tabella	Una clausola BigQuery ML PREDICT per identificare le anomalie in `discount_pct`. Controlla se deve essere applicato uno sconto in base a `customer`, `currency` e `transaction`. La regola controlla se la previsione corrisponde al valore effettivo almeno il 99% delle volte. Presupposto: il modello ML viene creato prima di utilizzare la regola. Crea il modello ML utilizzando il seguente comando: CREATE MODEL model-project-id.dataset-id.model-name OPTIONS(model_type='logistic_reg') AS SELECT IF(discount_pct IS NULL, 0, 1) AS label, IFNULL(customer_id, "") AS customer, IFNULL(currency_id, "") AS currency, IFNULL(amount, 0.0) AS amount FROM `data-project-id.dataset-id.table-names` WHERE transaction_timestamp < '2022-01-01';	La seguente regola controlla se l'accuratezza della previsione è superiore al 99%. SELECT accuracy > 0.99 FROM ML.EVALUATE (MODEL model-project-id.dataset-id.model-name, ( SELECT customer_id, currency_id, amount, discount_pct FROM data-project-id.dataset-id.table-names WHERE transaction_timestamp > '2022-01-01'; ) )
Condizione a livello di riga	Una funzione di previsione BigQuery ML per identificare le anomalie in `discount_pct`. La funzione controlla se deve essere applicato uno sconto in base a `customer`, `currency` e `transaction`. La regola identifica tutte le occorrenze in cui la previsione non corrisponde. Presupposto: il modello ML viene creato prima di utilizzare la regola. Crea il modello ML utilizzando il seguente comando: CREATE MODEL model-project-id.dataset-id.model-name OPTIONS(model_type='logistic_reg') AS SELECT IF(discount_pct IS NULL, 0, 1) AS label, IFNULL(customer_id, "") AS customer, IFNULL(currency_id, "") AS currency, IFNULL(amount, 0.0) AS amount FROM `data-project-id.dataset-id.table-names` WHERE transaction_timestamp < '2022-01-01';	La seguente regola verifica se la previsione dello sconto corrisponde a quella effettiva per ogni riga. IF(discount_pct > 0, 1, 0) =(SELECT predicted_label FROM ML.PREDICT( MODEL model-project-id.dataset-id.model-name, ( SELECT customer_id, currency_id, amount, discount_pct FROM data-project-id.dataset-id.table-names AS t WHERE t.transaction_timestamp = transaction_timestamp LIMIT 1 ) ) )
Asserzione SQL	Verifica se `discount_pct` è maggiore del 30% per oggi controllando se esistono righe con una percentuale di sconto inferiore o uguale a 30.	`SELECT * FROM my_project_id.dim_dataset.dim_currency WHERE discount_pct <= 30 AND transaction_timestamp >= current_date()`
Asserzione SQL (con parametro di riferimento ai dati)	Controlla se il `discount_pct` è superiore al 30% per tutte le valute supportate oggi. Il filtro per data `transaction_timestamp >= current_date()` viene applicato come filtro per riga alla tabella dell'origine dati. Il parametro di riferimento ai dati `${data()}` funge da segnaposto per `my_project_id.dim_dataset.dim_currency WHERE transaction_timestamp >= current_date()` e applica il filtro per le righe.	`SELECT * FROM ${data()} WHERE discount_pct > 30`

Definisci le regole sulla qualità dei dati utilizzando gcloud CLI

Il seguente file YAML di esempio utilizza alcune delle stesse regole degli esempi di regole che utilizzano tipi integrati e degli esempi di regole SQL personalizzate. Questo file YAML contiene anche altre specifiche per l'analisi della qualità dei dati, come filtri e percentuale di campionamento. Quando utilizzi gcloud CLI per creare o aggiornare una scansione della qualità dei dati, puoi utilizzare un file YAML come questo come input per l'argomento --data-quality-spec-file.

rules:
- uniquenessExpectation: {}
  column: transaction_id
  dimension: UNIQUENESS
- nonNullExpectation: {}
  column: amount
  dimension: COMPLETENESS
  threshold: 1
- regexExpectation:
    regex: '^[0-9]{8}[a-zA-Z]{16}$'
  column : customer_id
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- setExpectation :
    values :
    - 'USD'
    - 'JPY'
    - 'INR'
    - 'GBP'
    - 'CAN'
  column : currency_id
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- rangeExpectation:
    minValue : '0'
    maxValue : '100'
  column : discount_pct
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- rowConditionExpectation:
    sqlExpression : 0 < `discount_pct` AND `discount_pct` < 100
  column: discount_pct
  dimension: VALIDITY
  threshold: 1
- rowConditionExpectation:
    sqlExpression : currency_id in (select id from `my_project_id.dim_dataset.dim_currency`)
  column: currency_id
  dimension: VALIDITY
  threshold: 1
- tableConditionExpectation:
    sqlExpression : 30 < avg(discount_pct) AND avg(discount_pct) < 50
  dimension: VALIDITY
- rowConditionExpectation:
    sqlExpression : TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()
  column: transaction_timestamp
  dimension: VALIDITY
  threshold: 1
- sqlAssertion:
    sqlStatement : SELECT * FROM `my_project_id.dim_dataset.dim_currency` WHERE discount_pct > 100
  dimension: VALIDITY
samplingPercent: 50
rowFilter: discount_pct > 100
postScanActions:
  bigqueryExport:
    resultsTable: projects/my_project_id/datasets/dim_dataset/tables/dim_currency
  notificationReport:
    recipients:
      emails:
      - '222larabrown@gmail.com'
      - 'cloudysanfrancisco@gmail.com'
    scoreThresholdTrigger:
      scoreThreshold: 50
    jobFailureTrigger: {}
    jobEndTrigger: {}
catalogPublishingEnabled: true

Crea un'analisi della qualità dei dati

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic su Crea analisi della qualità dei dati.
Nella finestra Definisci scansione, compila i seguenti campi:
1. (Facoltativo) Inserisci un Nome visualizzato.
2. Inserisci un ID. Consulta le convenzioni di denominazione delle risorse.
3. Facoltativo: inserisci una descrizione.
4. Nel campo Table (Tabella), fai clic su Sfoglia. Scegli la tabella da analizzare e fai clic su Seleziona. Sono supportate solo le tabelle BigQuery standard.
  
  Per le tabelle nei set di dati multiregionali, scegli una regione in cui creare la scansione dei dati.
  
  Per sfogliare le tabelle organizzate all'interno dei lake Dataplex Universal Catalog, fai clic su Sfoglia all'interno dei datalake Dataplex.
5. Nel campo Ambito, scegli Incrementale o Tutti i dati.
  - Se scegli Incrementale: nel campo Colonna timestamp, seleziona una colonna di tipo DATE o TIMESTAMP dalla tabella BigQuery che aumenti man mano che vengono aggiunti nuovi record e che possa essere utilizzata per identificare nuovi record. Può essere una colonna che partiziona la tabella.
6. Per filtrare i dati, seleziona la casella di controllo Filtra righe. Fornisci un filtro per le righe costituito da un'espressione SQL valida che può essere utilizzata come parte di una clausola WHERE nella sintassi GoogleSQL. Ad esempio: col1 >= 0. Il filtro può essere una combinazione di più condizioni di colonna. Ad esempio, col1 >= 0 AND col2 < 10.
7. Per campionare i dati, seleziona una percentuale di campionamento nell'elenco Dimensioni del campionamento. Scegli un valore percentuale compreso tra 0,0% e 100,0% con un massimo di tre cifre decimali. Per set di dati più grandi, scegli una percentuale di campionamento inferiore. Ad esempio, per una tabella da 1 PB, se inserisci un valore compreso tra 0,1% e 1,0%, la scansione della qualità dei dati campiona tra 1 e 10 TB di dati. Per le scansioni incrementali dei dati, l'analisi della qualità dei dati applica il campionamento all'incremento più recente.
8. Per pubblicare i risultati della scansione della qualità dei dati come metadati di Dataplex Universal Catalog, seleziona la casella di controllo Pubblica i risultati in BigQuery e Dataplex Catalog.
  
  Puoi visualizzare i risultati dell'ultima scansione nella scheda Qualità dei dati nelle pagine di BigQuery e Dataplex Universal Catalog per la tabella di origine. Per consentire agli utenti di accedere ai risultati della scansione pubblicati, consulta la sezione Concedere l'accesso ai risultati della scansione del profilo di dati di questo documento.
9. Nella sezione Pianificazione, scegli una delle seguenti opzioni:
  - Ripeti: esegui la scansione della qualità dei dati in base a una pianificazione: oraria, giornaliera, settimanale, mensile o personalizzata. Specifica la frequenza di esecuzione della scansione e l'ora. Se scegli Personalizzato, utilizza il formato cron per specificare la pianificazione.
  - On demand: esegui la scansione della qualità dei dati on demand.
10. Fai clic su Continua.
Nella finestra Regole sulla qualità dei dati, definisci le regole da configurare per questa analisi della qualità dei dati.
1. Fai clic su Aggiungi regole e poi scegli una delle seguenti opzioni.
  - Suggerimenti basati sul profilo: crea regole a partire dai suggerimenti basati su una scansione di profilazione dei dati esistente.
    1. Scegli le colonne: seleziona le colonne per cui ottenere regole consigliate.
    2. Scegli progetto di analisi: se la scansione di profilazione dei dati si trova in un progetto diverso da quello in cui stai creando la scansione della qualità dei dati, seleziona il progetto da cui estrarre le scansioni del profilo.
    3. Scegli i risultati del profilo: seleziona uno o più risultati del profilo e fai clic su Ok. Viene visualizzato un elenco di regole suggerite che puoi utilizzare come punto di partenza.
    4. Seleziona la casella di controllo relativa alle regole che vuoi aggiungere e poi fai clic su Seleziona. Una volta selezionate, le regole vengono aggiunte all'elenco delle regole corrente. Dopodiché, puoi modificare le regole.
  - Tipi di regole integrate: crea regole a partire da regole predefinite. Consulta l'elenco delle regole predefinite.
    1. Scegli colonne: seleziona le colonne per cui selezionare le regole.
    2. Scegli i tipi di regole: seleziona i tipi di regole da cui vuoi scegliere, quindi fai clic su Ok. I tipi di regole visualizzati dipendono dalle colonne selezionate.
    3. Seleziona la casella di controllo relativa alle regole che vuoi aggiungere e poi fai clic su Seleziona. Una volta selezionate, le regole vengono aggiunte all'elenco corrente. Dopodiché, puoi modificare le regole.
  - Regola per il controllo delle righe SQL: crea una regola SQL personalizzata da applicare a ogni riga.
    1. In Dimensione, scegli una dimensione.
    2. In Soglia di superamento, scegli una percentuale di record che devono superare il controllo.
    3. In Nome colonna, scegli una colonna.
    4. Nel campo Fornisci un'espressione SQL, inserisci un'espressione SQL che restituisce un valore booleano true (superato) o false (non superato). Per maggiori informazioni, vedi Tipi di regole SQL personalizzate supportati e gli esempi in Definisci regole di qualità dei dati.
    5. Fai clic su Aggiungi.
  - Regola per il controllo aggregato SQL: crea una regola di condizione della tabella SQL personalizzata.
    1. In Dimensione, scegli una dimensione.
    2. In Nome colonna, scegli una colonna.
    3. Nel campo Fornisci un'espressione SQL, inserisci un'espressione SQL che restituisce un valore booleano true (superato) o false (non superato). Per maggiori informazioni, vedi Tipi di regole SQL personalizzate supportati e gli esempi in Definisci regole di qualità dei dati.
    4. Fai clic su Aggiungi.
  - Regola di asserzione SQL: crea una regola di asserzione SQL personalizzata per verificare uno stato non valido dei dati.
    1. In Dimensione, scegli una dimensione.
    2. (Facoltativo) In Nome colonna, scegli una colonna.
    3. Nel campo Fornisci un'istruzione SQL, inserisci un'istruzione SQL che restituisce le righe che corrispondono allo stato non valido. Se vengono restituite delle righe, questa regola non riesce. Ometti il punto e virgola finale dall'istruzione SQL. Per ulteriori informazioni, vedi Tipi di regole SQL personalizzate supportati e gli esempi in Definire le regole di qualità dei dati.
    4. Fai clic su Aggiungi.
2. (Facoltativo) Per qualsiasi regola di qualità dei dati, puoi assegnare un nome personalizzato da utilizzare per il monitoraggio e gli avvisi, nonché una descrizione. Per farlo, modifica una regola e specifica i seguenti dettagli:
  - Nome regola: inserisci un nome regola personalizzato con un massimo di 63 caratteri. Il nome della regola può includere lettere (a-z, A-Z), cifre (0-9) e trattini (-) e deve iniziare con una lettera e terminare con un numero o una lettera.
  - Descrizione: inserisci una descrizione della regola con una lunghezza massima di 1024 caratteri.
3. Ripeti i passaggi precedenti per aggiungere altre regole all'analisi della qualità dei dati. Al termine, fai clic su Continua.
(Facoltativo) Esporta i risultati della scansione in una tabella standard BigQuery. Nella sezione Esporta i risultati della scansione in una tabella BigQuery, esegui le seguenti operazioni:
1. Nel campo Seleziona set di dati BigQuery, fai clic su Sfoglia. Seleziona un set di dati BigQuery in cui archiviare i risultati della scansione della qualità dei dati.
2. Nel campo Tabella BigQuery, specifica la tabella in cui archiviare i risultati della scansione della qualità dei dati. Se utilizzi una tabella esistente, assicurati che sia compatibile con lo schema della tabella di esportazione. Se la tabella specificata non esiste, Dataplex Universal Catalog la crea per te.
  
  Nota: puoi utilizzare la stessa tabella dei risultati per più analisi della qualità dei dati.
(Facoltativo) Aggiungi etichette. Le etichette sono coppie chiave-valore che consentono di raggruppare oggetti correlati fra loro o con altre risorse Google Cloud .
(Facoltativo) Configura i report di notifica via email per avvisare le persone dello stato e dei risultati di un job di scansione della qualità dei dati. Nella sezione Report notifiche, fai clic su Aggiungi ID email e inserisci fino a cinque indirizzi email. Poi seleziona gli scenari per i quali vuoi inviare i report:
- Punteggio di qualità (<=): invia un report quando un job viene completato correttamente con un punteggio di qualità dei dati inferiore al punteggio target specificato. Inserisci un punteggio di qualità target compreso tra 0 e 100.
- Errori del job: invia un report quando il job stesso non va a buon fine, indipendentemente dai risultati della qualità dei dati.
- Completamento job (con esito positivo o negativo): invia un report al termine del job, indipendentemente dai risultati della qualità dei dati.
Fai clic su Crea.

Dopo aver creato la scansione, puoi eseguirla in qualsiasi momento facendo clic su Esegui ora.

gcloud

Per creare un'analisi della qualità dei dati, utilizza il comando gcloud dataplex datascans create data-quality.

Se i dati di origine sono organizzati in un lake Dataplex Universal Catalog, includi il flag --data-source-entity:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-entity=DATA_SOURCE_ENTITY

Se i dati di origine non sono organizzati in un lake Dataplex Universal Catalog, includi il flag --data-source-resource:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-resource=DATA_SOURCE_RESOURCE

Sostituisci le seguenti variabili:

DATASCAN: il nome della scansione della qualità dei dati.
LOCATION: la Google Cloud regione in cui creare l'analisi della qualità dei dati.
DATA_QUALITY_SPEC_FILE: il percorso del file JSON o YAML contenente le specifiche per la scansione della qualità dei dati. Il file può essere un file locale o un percorso Cloud Storage con il prefisso gs://. Utilizza questo file per specificare le regole di qualità dei dati per la scansione. Puoi anche specificare ulteriori dettagli in questo file, come filtri, percentuale di campionamento e azioni post-scansione come l'esportazione in BigQuery o l'invio di report di notifica via email. Consulta la documentazione sulla rappresentazione JSON e l'esempio di rappresentazione YAML.
DATA_SOURCE_ENTITY: l'entità Dataplex Universal Catalog che contiene i dati per la scansione della qualità dei dati. Ad esempio, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
DATA_SOURCE_RESOURCE: il nome della risorsa che contiene i dati per la scansione della qualità dei dati. Ad esempio, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

REST

Per creare un'analisi della qualità dei dati, utilizza il metodo dataScans.create.

Se vuoi creare regole per la scansione della qualità dei dati utilizzando i suggerimenti per le regole basati sui risultati di una scansione di profilazione dei dati, ottieni i suggerimenti chiamando il metodo dataScans.jobs.generateDataQualityRules nella scansione di profilazione dei dati.

Nota:se la tabella BigQuery è configurata con l'opzione Richiedi filtro di partizione impostata su true, utilizza la colonna di partizione BigQuery come filtro delle righe di analisi della qualità dei dati o colonna timestamp.

Esportare lo schema della tabella

Per esportare i risultati della scansione della qualità dei dati in una tabella BigQuery esistente, assicurati che sia compatibile con lo schema della tabella seguente:

Nome colonna	Tipo di dati della colonna	Nome del campo secondario (se applicabile)	Tipo di dati del campo secondario	Modalità	Esempio
data_quality_scan	`struct/record`	`resource_name`	`string`	nullable	`//dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan`
		`project_id`	`string`	nullable	`dataplex-back-end-dev-project`
		`location`	`string`	nullable	`us-central1`
		`data_scan_id`	`string`	nullable	`test-datascan`
data_source	`struct/record`	`resource_name`	`string`	nullable	Caso di entità: `//dataplex.googleapis.com/projects/dataplex-back-end-dev-project/locations/europe-west2/lakes/a0-datascan-test-lake/zones/a0-datascan-test-zone/entities/table1` Caso di tabella: `//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table`
		`dataplex_entity_project_id`	`string`	nullable	`dataplex-back-end-dev-project`
		`dataplex_entity_project_number`	`integer`	nullable	`123456789`
		`dataplex_lake_id`	`string`	nullable	(Valido solo se l'origine è un'entità) `test-lake`
		`dataplex_zone_id`	`string`	nullable	(Valido solo se l'origine è un'entità) `test-zone`
		`dataplex_entity_id`	`string`	nullable	(Valido solo se l'origine è un'entità) `test-entity`
		`table_project_id`	`string`	nullable	`test-project`
		`table_project_number`	`integer`	nullable	`987654321`
		`dataset_id`	`string`	nullable	(Valido solo se l'origine è una tabella) `test-dataset`
		`table_id`	`string`	nullable	(Valido solo se l'origine è una tabella) `test-table`
data_quality_job_id	`string`			nullable	`caeba234-cfde-4fca-9e5b-fe02a9812e38`
data_quality_job_configuration	`json`	`trigger`	`string`	nullable	`ondemand`/`schedule`
		`incremental`	`boolean`	nullable	`true`/`false`
		`sampling_percent`	`float`	nullable	(0-100) `20.0` (indica il 20%)
		`row_filter`	`string`	nullable	`col1 >= 0 AND col2 < 10`
job_labels	`json`			nullable	`{"key1":value1}`
job_start_time	`timestamp`			nullable	`2023-01-01 00:00:00 UTC`
job_end_time	`timestamp`			nullable	`2023-01-01 00:00:00 UTC`
job_rows_scanned	`integer`			nullable	`7500`
rule_name	`string`			nullable	`test-rule`
rule_type	`string`			nullable	`Range Check`
rule_evaluation_type	`string`			nullable	`Per row`
rule_column	`string`			nullable	`Rule only attached to a certain column`
rule_dimension	`string`			nullable	`UNIQUENESS`
job_quality_result	`struct/record`	`passed`	`boolean`	nullable	`true`/`false`
job_quality_result	`struct/record`	`score`	`float`	nullable	`90.8`
job_dimension_result	`json`			nullable	`{"ACCURACY":{"passed":true,"score":100},"CONSISTENCY":{"passed":false,"score":60}}`
rule_threshold_percent	`float`			nullable	(0,0-100,0) `Rule-threshold-pct in API * 100`
rule_parameters	`json`			nullable	`{min: 24, max:5345}`
rule_pass	`boolean`			nullable	`True`
rule_rows_evaluated	`integer`			nullable	`7400`
rule_rows_passed	`integer`			nullable	`3`
rule_rows_null	`integer`			nullable	`4`
rule_failed_records_query	`string`			nullable	"SELECT * FROM `test-project.test-dataset.test-table` WHERE (NOT((`cTime` >= '15:31:38.776361' and `cTime` <= '19:23:53.754823') IS TRUE));"
rule_assertion_row_count	`integer`			nullable	`10`

Quando configuri BigQueryExport per un job di analisi della qualità dei dati, segui queste linee guida:

Per il campo resultsTable, utilizza il formato: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
Utilizza una tabella standard BigQuery.
Se la tabella non esiste quando viene creato o aggiornato lo scan, Dataplex Universal Catalog la crea automaticamente.
Per impostazione predefinita, la tabella viene partizionata in base alla colonna job_start_time ogni giorno.
Se vuoi che la tabella sia partizionata in altre configurazioni o se non vuoi la partizione, ricrea la tabella con lo schema e le configurazioni richiesti e poi fornisci la tabella precreata come tabella dei risultati.
Assicurati che la tabella dei risultati si trovi nella stessa posizione della tabella di origine.
Se i controlli di servizio VPC sono configurati nel progetto, la tabella dei risultati deve trovarsi nello stesso perimetro dei controlli di servizio VPC della tabella di origine.
Se la tabella viene modificata durante la fase di esecuzione della scansione, il job in esecuzione corrente viene esportato nella tabella dei risultati precedente e la modifica della tabella ha effetto a partire dal job di scansione successivo.
Non modificare lo schema della tabella. Se hai bisogno di colonne personalizzate, crea una vista nella tabella.
Per ridurre i costi, imposta una scadenza per la partizione in base al tuo caso d'uso. Per saperne di più, scopri come impostare la scadenza della partizione.

Esegui una scansione della qualità dei dati

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sulla scansione della qualità dei dati da eseguire.
Fai clic su Esegui ora.

gcloud

Per eseguire un'analisi della qualità dei dati, utilizza il comando gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION \

Sostituisci le seguenti variabili:

LOCATION: la Google Cloud regione in cui è stata creata l'analisi della qualità dei dati.
DATASCAN: il nome della scansione della qualità dei dati.

REST

Per eseguire un'analisi della qualità dei dati, utilizza il metodo dataScans.run.

Visualizzare i risultati dell'analisi della qualità dei dati

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sul nome di un'analisi della qualità dei dati.
- La sezione Panoramica mostra informazioni sui job più recenti, tra cui la data di esecuzione della scansione, il numero di record scansionati in ogni job, se tutti i controlli della qualità dei dati sono stati superati e, in caso di errori, il numero di controlli della qualità dei dati non superati.
- La sezione Configurazione dell'analisi della qualità dei dati mostra i dettagli dell'analisi.
Per visualizzare informazioni dettagliate su un job, ad esempio i punteggi di qualità dei dati che indicano la percentuale di regole superate, le regole non superate e i log dei job, fai clic sulla scheda Cronologia job. Quindi, fai clic su un ID job.

gcloud

Per visualizzare i risultati di un job di scansione della qualità dei dati, utilizza il comando gcloud dataplex datascans jobs describe:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Sostituisci le seguenti variabili:

JOB: l'ID job del job di analisi della qualità dei dati.
LOCATION: La Google Cloud regione in cui è stata creata la scansione della qualità dei dati.
DATASCAN: il nome dell'analisi della qualità dei dati a cui appartiene il job.
--view=FULL: per visualizzare il risultato del job di scansione, specifica FULL.

REST

Per visualizzare i risultati di un'analisi della qualità dei dati, utilizza il metodo dataScans.get.

Visualizzare i risultati pubblicati

Se i risultati della scansione della qualità dei dati vengono pubblicati come metadati di Dataplex Universal Catalog, puoi visualizzare i risultati più recenti della scansione nelle pagine BigQuery e Dataplex Universal Catalog della consoleGoogle Cloud , nella scheda Qualità dei dati della tabella di origine.

Nella console Google Cloud , vai alla pagina Cerca di Dataplex Universal Catalog.

Vai a Cerca
Cerca e seleziona la tabella.
Fai clic sulla scheda Qualità dei dati.

Vengono visualizzati gli ultimi risultati pubblicati.

Nota: i risultati pubblicati potrebbero non essere disponibili se viene eseguita una scansione per la prima volta.

Visualizzare i risultati storici delle scansioni

Dataplex Universal Catalog salva la cronologia delle analisi della qualità dei dati degli ultimi 300 job o dell'ultimo anno, a seconda di quale si verifica per primo.

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sul nome di un'analisi della qualità dei dati.
Fai clic sulla scheda Cronologia dei job.

La scheda Cronologia job fornisce informazioni sui job precedenti, ad esempio il numero di record scansionati in ogni job, lo stato del job, l'ora in cui è stato eseguito il job e se ogni regola è stata superata o meno.
Per visualizzare informazioni dettagliate su un job, fai clic su uno qualsiasi dei job nella colonna ID job.

gcloud

Per visualizzare i job di scansione della qualità dei dati storici, utilizza il comando gcloud dataplex datascans jobs list:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN \

Sostituisci le seguenti variabili:

LOCATION: La Google Cloud regione in cui è stata creata la scansione della qualità dei dati.
DATASCAN: Il nome della scansione della qualità dei dati per cui visualizzare i job storici.

REST

Per visualizzare i job di scansione della qualità dei dati storici, utilizza il metodo dataScans.jobs.list.

Per consentire agli utenti della tua organizzazione di visualizzare i risultati della scansione:

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sulla scansione della qualità dei dati di cui vuoi condividere i risultati.
Fai clic sulla scheda Autorizzazioni.
Segui questi passaggi:
- Per concedere l'accesso a un'entità, fai clic su Concedi l'accesso. Concedi il ruolo Dataplex DataScan DataViewer all'entità associata.
- Per rimuovere l'accesso da un'entità, seleziona l'entità da cui vuoi rimuovere il ruolo Visualizzatore dati DataScan Dataplex. Fai clic su Rimuovi accesso e poi conferma quando richiesto.

Impostare avvisi in Cloud Logging

Per impostare avvisi per gli errori di qualità dei dati utilizzando i log in Cloud Logging, segui questi passaggi:

Console

Nella console Google Cloud , vai a Cloud Logging Esplora log.

Vai a Esplora log
Nella finestra Query, inserisci la query. Vedi le query di esempio.
Fai clic su Esegui query.
Fai clic su Crea avviso. Si aprirà un riquadro laterale.
Inserisci il nome del criterio di avviso e fai clic su Avanti.
Esamina la query.
1. Fai clic sul pulsante Anteprima log per testare la query. Mostra i log con le condizioni corrispondenti.
2. Fai clic su Avanti.
Imposta l'orario tra le notifiche e fai clic su Avanti.
Definisci chi deve ricevere le notifiche per l'avviso e fai clic su Salva per creare il criterio di avviso.

In alternativa, puoi configurare e modificare gli avvisi andando a Monitoring > Avvisi nella console Google Cloud .

gcloud

Non supportati.

REST

Per saperne di più su come impostare avvisi in Cloud Logging, consulta Creare una criterio di avviso basata su log utilizzando l'API Monitoring.

Query di esempio per impostare avvisi a livello di job o di dimensione

Una query di esempio per impostare avvisi sugli errori complessivi della qualità dei dati per un'analisi della qualità dei dati:

resource.type="dataplex.googleapis.com/DataScan"
AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
AND resource.labels.resource_container="projects/112233445566"
AND resource.labels.datascan_id="a0-test-dec6-dq-3"
AND NOT jsonPayload.dataQuality.passed=true

Una query di esempio per impostare avvisi sugli errori di qualità dei dati per una dimensione (ad esempio, unicità) di una determinata scansione della qualità dei dati:

resource.type="dataplex.googleapis.com/DataScan"
AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
AND resource.labels.resource_container="projects/112233445566"
AND resource.labels.datascan_id="a0-test-dec6-dq-3"
AND jsonPayload.dataQuality.dimensionPassed.UNIQUENESS=false

Una query di esempio per impostare avvisi sugli errori di qualità dei dati per una tabella.

Imposta avvisi sugli errori di qualità dei dati per una tabella BigQuery che non è organizzata in un lake Dataplex Universal Catalog:

resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.dataSource="//bigquery.googleapis.com/projects/test-project/datasets/testdataset/table/chicago_taxi_trips"
AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
AND resource.labels.resource_container="projects/112233445566"
AND NOT jsonPayload.dataQuality.passed=true

Imposta avvisi sugli errori di qualità dei dati per una tabella BigQuery organizzata in un lake Dataplex Universal Catalog:

resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.dataSource="projects/test-project/datasets/testdataset/table/chicago_taxi_trips"
AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
AND resource.labels.resource_container="projects/112233445566"
AND NOT jsonPayload.dataQuality.passed=true

Query di esempio per impostare avvisi per regola

Una query di esempio per impostare avvisi su tutte le regole di qualità dei dati non riuscite con il nome della regola personalizzata specificato per un'analisi della qualità dei dati:
```
resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.ruleName="custom-name"
AND jsonPayload.result="FAILED"
```
Una query di esempio per impostare avvisi su tutte le regole di qualità dei dati non riuscite di un tipo di valutazione specifico per un'analisi della qualità dei dati:
```
resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.evalutionType="PER_ROW"
AND jsonPayload.result="FAILED"
```
Una query di esempio per impostare avvisi su tutte le regole di qualità dei dati non riuscite per una colonna nella tabella utilizzata per un'analisi della qualità dei dati:
```
resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.column="CInteger"
AND jsonPayload.result="FAILED"
```

Risolvere i problemi relativi a un errore di qualità dei dati

Per ogni job con regole a livello di riga non riuscite, Dataplex Universal Catalog fornisce una query per ottenere i record non riusciti. Esegui questa query per visualizzare i record che non corrispondono alla tua regola.

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sul nome della scansione della qualità dei dati di cui vuoi risolvere i problemi relativi ai record.
Fai clic sulla scheda Cronologia dei job.
Fai clic sull'ID del job che ha identificato errori di qualità dei dati.
Nella finestra dei risultati del job che si apre, nella sezione Regole, individua la colonna Query per ottenere i record non riusciti. Fai clic su Copia query negli appunti per la regola non riuscita.
Esegui la query in BigQuery per visualizzare i record che hanno causato l'errore del job.

gcloud

Non supportati.

REST

Per ottenere il job che ha identificato gli errori di qualità dei dati, utilizza il metodo dataScans.get.

Nell'oggetto della risposta, il campo failingRowsQuery mostra la query.
Esegui la query in BigQuery per visualizzare i record che hanno causato l'errore del job.

Gestire le scansioni della qualità dei dati per una tabella specifica

I passaggi descritti in questo documento mostrano come gestire le scansioni dei profili dei dati nel tuo progetto utilizzando la pagina Profilazione e qualità dei dati di Dataplex Universal Catalog nella console Google Cloud .

Puoi anche creare e gestire le scansioni dei profili dei dati quando lavori con una tabella specifica. Nella console Google Cloud , nella pagina Dataplex Universal Catalog della tabella, utilizza la scheda Qualità dei dati. Segui questi passaggi:

Nella console Google Cloud , vai alla pagina Cerca di Dataplex Universal Catalog.

Vai a Cerca

Cerca e seleziona la tabella.
Fai clic sulla scheda Qualità dei dati.
A seconda che la tabella abbia un'analisi della qualità dei dati i cui risultati sono pubblicati come metadati di Dataplex Universal Catalog, puoi utilizzare le analisi della qualità dei dati della tabella nei seguenti modi:
- I risultati della scansione della qualità dei dati sono pubblicati: i risultati dell'ultima scansione vengono visualizzati nella pagina.
  
  Per gestire le scansioni della qualità dei dati per questa tabella, fai clic su Analisi della qualità dei dati e poi scegli tra le seguenti opzioni:
  - Crea nuova scansione: crea una nuova scansione della qualità dei dati. Per saperne di più, consulta la sezione Crea un'analisi della qualità dei dati di questo documento. Quando crei una scansione dalla pagina dei dettagli di una tabella, la tabella è preselezionata.
  - Esegui ora: esegui la scansione.
  - Modifica configurazione di scansione: modifica le impostazioni, tra cui il nome visualizzato, i filtri e la pianificazione.
    
    Per modificare le regole di qualità dei dati, fai clic sulla scheda Qualità dei dati e poi sulla scheda Regole. Fai clic su Modifica regole. Aggiorna le regole e poi fai clic su Salva.
  - Gestisci autorizzazioni della scansione: controlla chi può accedere ai risultati della scansione. Per ulteriori informazioni, consulta la sezione Concedere l'accesso ai risultati dell'analisi della qualità dei dati di questo documento.
  - Visualizza risultati storici: visualizza informazioni dettagliate sui job di scansione della qualità dei dati precedenti. Per saperne di più, consulta le sezioni Visualizzare i risultati della scansione della qualità dei dati e Visualizzare i risultati della scansione cronologica di questo documento.
  - Visualizza tutte le scansioni: visualizza un elenco delle scansioni della qualità dei dati che si applicano a questa tabella.
- I risultati della scansione della qualità dei dati non vengono pubblicati: seleziona una delle seguenti opzioni:
  - Crea scansione della qualità dei dati: crea una nuova scansione della qualità dei dati. Per saperne di più, consulta la sezione Crea un'analisi della qualità dei dati di questo documento. Quando crei una scansione dalla pagina dei dettagli di una tabella, la tabella è preselezionata.
  - Visualizza le scansioni esistenti: visualizza un elenco delle scansioni della qualità dei dati che si applicano a questa tabella.

Aggiorna un'analisi della qualità dei dati

Puoi modificare varie impostazioni per una scansione della qualità dei dati esistente, ad esempio il nome visualizzato, i filtri, la pianificazione e le regole di qualità dei dati.

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sul nome di un'analisi della qualità dei dati.
Per modificare le impostazioni, inclusi il nome visualizzato, i filtri e la programmazione, fai clic su Modifica. Modifica i valori e poi fai clic su Salva.
Per modificare le regole di qualità dei dati, nella pagina dei dettagli dell'analisi, fai clic sulla scheda Regole attuali. Fai clic su Modifica regole. Aggiorna le regole e poi fai clic su Salva.

gcloud

Per aggiornare la descrizione di una scansione della qualità dei dati, utilizza il comando gcloud dataplex datascans update data-quality:

gcloud dataplex datascans update data-quality DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Sostituisci quanto segue:

DATASCAN: il nome della scansione della qualità dei dati da aggiornare.
LOCATION: La Google Cloud regione in cui è stata creata la scansione della qualità dei dati.
DESCRIPTION: La nuova descrizione della scansione della qualità dei dati.

REST

Per modificare una scansione della qualità dei dati, utilizza il metodo dataScans.patch.

Eliminare un'analisi della qualità dei dati

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sulla scansione che vuoi eliminare.
Fai clic su Elimina e poi conferma quando richiesto.

gcloud

Per eliminare una scansione della qualità dei dati, utilizza il comando gcloud dataplex datascans delete:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION \
--async

Sostituisci le seguenti variabili:

DATASCAN: il nome della scansione della qualità dei dati da eliminare.
LOCATION: La Google Cloud regione in cui è stata creata la scansione della qualità dei dati.

REST

Per eliminare una scansione della qualità dei dati, utilizza il metodo dataScans.delete.

Passaggi successivi

Segui un codelab: utilizza l'assistenza AI per facilitare la qualità dei dati programmatica.
Scopri di più sulla profilazione dei dati.
Scopri come utilizzare la profilazione dei dati.
Segui un tutorial per gestire le regole di qualità dei dati come codice con Terraform.

Utilizzare la qualità dei dati automatica

Prima di iniziare

Ruoli obbligatori

Ruoli di scansione dei dati obbligatori

Definisci le regole sulla qualità dei dati

Definisci regole sulla qualità dei dati utilizzando i tipi di regole integrati

Definisci regole sulla qualità dei dati utilizzando regole SQL personalizzate

Definisci le regole sulla qualità dei dati utilizzando gcloud CLI

Crea un'analisi della qualità dei dati

Console

gcloud

REST

Esportare lo schema della tabella

Esegui una scansione della qualità dei dati

Console

gcloud

REST

Visualizzare i risultati dell'analisi della qualità dei dati

Console

gcloud

REST

Visualizzare i risultati pubblicati

Visualizzare i risultati storici delle scansioni

Console

gcloud

REST

Concedere l'accesso ai risultati della scansione della qualità dei dati

Impostare avvisi in Cloud Logging

Console

gcloud

REST

Query di esempio per impostare avvisi a livello di job o di dimensione

Query di esempio per impostare avvisi per regola

Risolvere i problemi relativi a un errore di qualità dei dati

Console

gcloud

REST

Gestire le scansioni della qualità dei dati per una tabella specifica

Aggiorna un'analisi della qualità dei dati

Console

gcloud

REST

Eliminare un'analisi della qualità dei dati

Console

gcloud

REST

Passaggi successivi