Panoramica delle attività relative alla qualità dei dati

Le attività di qualità dei dati di Dataplex ti consentono di definire ed eseguire controlli di qualità dei dati nelle tabelle di BigQuery e Cloud Storage. Le attività di qualità dei dati di Dataplex ti consentono inoltre di applicare controlli regolari dei dati negli ambienti BigQuery.

Quando creare attività di qualità dei dati Dataplex

Le attività di qualità dei dati di Dataplex possono aiutarti a:

  • Convalidare i dati come parte di una pipeline di produzione dei dati.
  • Monitora regolarmente la qualità dei set di dati in base alle tue aspettative.
  • Crea report sulla qualità dei dati per i requisiti normativi.

Vantaggi

  • Specifiche personalizzabili. Puoi utilizzare la sintassi YAML estremamente flessibile per dichiarare le regole di qualità dei dati.
  • Implementazione serverless. Dataplex non richiede alcuna configurazione dell'infrastruttura.
  • Zero-copy e pushdown automatico. I controlli YAML vengono convertiti in SQL e pushed in BigQuery, quindi non viene eseguita alcuna copia dei dati.
  • Controlli della qualità dei dati pianificabili. Puoi pianificare i controlli di qualità dei dati tramite lo scheduler serverless in Dataplex oppure utilizzare l'API Dataplex tramite pianificatori esterni come Cloud Composer per l'integrazione della pipeline.
  • Esperienza gestita. Dataplex utilizza un motore di qualità dei dati open source, CloudDQ, per eseguire controlli di qualità dei dati. Tuttavia, Dataplex offre un'esperienza gestita senza interruzioni per eseguire i controlli della qualità dei dati.

Come funzionano le attività relative alla qualità dei dati

Il seguente diagramma mostra il funzionamento delle attività di qualità dei dati di Dataplex:

immagine

  • Contributi degli utenti
    • Specifica YAML: un insieme di uno o più file YAML che definiscono le regole di qualità dei dati in base alla sintassi della specifica. Archivi i file YAML in un bucket Cloud Storage nel tuo progetto. Gli utenti possono eseguire più regole contemporaneamente e queste regole possono essere applicate a diverse tabelle BigQuery, incluse le tabelle di diversi set di dati o progetti Google Cloud. La specifica supporta le esecuzioni incrementali solo per la convalida dei nuovi dati. Per creare una specifica YAML, consulta Creare un file di specifiche.
    • Tabella dei risultati di BigQuery: una tabella specificata dall'utente in cui vengono memorizzati i risultati della convalida della qualità dei dati. Il progetto Google Cloud in cui si trova questa tabella può essere diverso da quello in cui viene utilizzata l'attività di qualità dei dati Dataplex.
  • Tabelle da convalidare
    • All'interno della specifica YAML, devi specificare le tabelle da convalidare per quali regole, nota anche come associazione di regole. Le tabelle possono essere tabelle native BigQuery o tabelle esterne BigQuery in Cloud Storage. La specifica YAML ti consente di specificare le tabelle all'interno o all'esterno di una zona Dataplex.
    • Le tabelle BigQuery e Cloud Storage convalidate in un'unica esecuzione possono appartenere a progetti diversi.
  • Attività di qualità dei dati Dataplex: un'attività di qualità dei dati Dataplex è configurata con un file binario PySpark CloudDQ precompilato e gestito e prende come input la specifica YAML e la tabella dei risultati BigQuery. Come per gli altri task Dataplex, l'attività di qualità dei dati Dataplex viene eseguita in un ambiente Spark senza server, converte la specifica YAML in query BigQuery e poi le esegue sulle tabelle definite nel file delle specifiche.

Prezzi

Quando esegui attività di qualità dei dati di Dataplex, ti vengono addebitati i costi per l'utilizzo di BigQuery e Dataproc Serverless (batch).

  • L'attività di qualità dei dati Dataplex converte il file di specifiche in query BigQuery ed esegue queste ultime nel progetto dell'utente. Consulta Prezzi di BigQuery.

  • Dataplex utilizza Spark per eseguire il programma del driver CloudDQ open source precompilato e gestito da Google per convertire le specifiche dell'utente in query BigQuery. Consulta i prezzi di Dataproc Serverless.

Non sono previsti costi per l'utilizzo di Dataplex per organizzare i dati o per l'utilizzo dello scheduler serverless in Dataplex per pianificare i controlli di qualità dei dati. Consulta Prezzi di Dataplex.

Passaggi successivi