Panoramica delle attività relative alla qualità dei dati

Le attività relative alla qualità dei dati Dataplex consentono di definire ed eseguire controlli di qualità dei dati nelle tabelle in BigQuery e Cloud Storage. Le attività relative alla qualità dei dati Dataplex consentono anche di applicare controlli dei dati regolari negli ambienti BigQuery.

Quando creare attività relative alla qualità dei dati Dataplex

Le attività relative alla qualità dei dati Dataplex possono aiutarti a:

  • Convalida i dati come parte di una pipeline di produzione dei dati.
  • Monitora regolarmente la qualità dei set di dati in base alle tue aspettative.
  • Crea report sulla qualità dei dati in base ai requisiti normativi.

Vantaggi

  • Specifiche personalizzabili. Puoi utilizzare la sintassi YAML altamente flessibile per dichiarare le regole sulla qualità dei dati.
  • Implementazione serverless. Dataplex non ha bisogno di alcuna configurazione dell'infrastruttura.
  • Nessuna copia e push-down automatico. I controlli YAML vengono convertiti in SQL e inviati a BigQuery, eliminando la copia dei dati.
  • Controlli di qualità dei dati pianificabili. Puoi pianificare controlli di qualità dei dati tramite lo scheduler serverless in Dataplex oppure utilizzare l'API Dataplex tramite scheduler esterni come Cloud Composer per l'integrazione della pipeline.
  • Esperienza gestita. Dataplex utilizza un motore per la qualità dei dati open source, CloudDQ, per eseguire i controlli sulla qualità dei dati. Tuttavia, Dataplex fornisce un'esperienza gestita senza interruzioni per eseguire i controlli sulla qualità dei dati.

Come funziona

Il seguente diagramma mostra come funzionano le attività relative alla qualità dei dati Dataplex:

immagine

  • Input degli utenti
    • Specifica YAML: un insieme di uno o più file YAML che definiscono le regole sulla qualità dei dati in base alla sintassi della specifica. Puoi archiviare i file YAML in un bucket Cloud Storage nel tuo progetto. Gli utenti possono eseguire più regole contemporaneamente, applicabili a diverse tabelle BigQuery, comprese tabelle tra set di dati o progetti Google Cloud differenti. La specifica supporta le esecuzioni incrementali solo per la convalida dei nuovi dati. Per creare una specifica YAML, consulta Creare un file di specifica.
    • Tabella dei risultati BigQuery: una tabella specificata dall'utente in cui sono archiviati i risultati di convalida della qualità dei dati. Il progetto Google Cloud in cui si trova questa tabella può essere un progetto diverso da quello in cui viene utilizzata l'attività di qualità dei dati Dataplex.
  • Tabelle da convalidare
    • All'interno della specifica YAML, devi specificare le tabelle per le quali vuoi convalidare le regole (funzionalità nota anche come associazione di regole). Le tabelle possono essere tabelle native di BigQuery o esterne di BigQuery in Cloud Storage. La specifica YAML consente di specificare le tabelle all'interno o all'esterno di una zona Dataplex.
    • Le tabelle BigQuery e Cloud Storage convalidate in un'unica esecuzione possono appartenere a progetti diversi.
  • Attività di qualità dei dati Dataplex: un'attività di qualità dei dati Dataplex è configurata con un programma binario CloudDQ PySpark predefinito e gestito e utilizza la specifica YAML e la tabella dei risultati di BigQuery come input. Analogamente ad altre attività Dataplex, l'attività di qualità dei dati Dataplex viene eseguita in un ambiente Spark serverless, converte la specifica YAML in query BigQuery e quindi esegue queste query sulle tabelle definite nel file delle specifiche.

Costi

Quando esegui attività relative alla qualità dei dati Dataplex, ti viene addebitato l'utilizzo di BigQuery e Dataproc Serverless (Batch).

  • L'attività di qualità dei dati Dataplex converte il file di specifica in query BigQuery e le esegue nel progetto utente. Consulta la pagina relativa ai prezzi di BigQuery.

  • Dataplex utilizza Spark per eseguire il programma di driver predefinito CloudDQ open source gestito da Google per convertire le specifiche utente in query BigQuery. Consulta i prezzi di Dataproc Serverless.

Non sono previsti costi per l'utilizzo di Dataplex per organizzare i dati o per l'uso dello scheduler serverless in Dataplex per pianificare i controlli di qualità dei dati. Consulta la pagina Prezzi di Dataplex.

Passaggi successivi