Panoramica delle attività relative alla qualità dei dati
Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Le attività di qualità dei dati di Dataplex Universal Catalog ti consentono di definire ed eseguire
controlli di qualità dei dati nelle tabelle di BigQuery e
Cloud Storage. Le attività di qualità dei dati del Catalogo universale Dataplex consentono anche di
applicare controlli regolari dei dati negli ambienti BigQuery.
Quando creare attività di qualità dei dati di Dataplex Universal Catalog
Le attività di qualità dei dati di Dataplex Universal Catalog possono aiutarti a:
Convalidare i dati nell'ambito di una pipeline di produzione dei dati.
Monitora regolarmente la qualità dei set di dati rispetto alle tue aspettative.
Crea report sulla qualità dei dati per i requisiti normativi.
Vantaggi
Specifiche personalizzabili. Puoi utilizzare la sintassi YAML altamente flessibile
per dichiarare le regole di qualità dei dati.
Implementazione serverless. Dataplex Universal Catalog non richiede alcuna
configurazione dell'infrastruttura.
Copia zero e pushdown automatico. I controlli YAML vengono convertiti in SQL e
trasferiti a BigQuery, senza copiare i dati.
Controlli della qualità dei dati pianificabili. Puoi pianificare i controlli di qualità dei dati
tramite lo scheduler serverless in Dataplex Universal Catalog oppure utilizzare l'API Dataplex tramite scheduler esterni come Cloud Composer
per l'integrazione della pipeline.
Esperienza gestita. Dataplex Universal Catalog utilizza un motore di qualità dei dati open source, CloudDQ, per eseguire i controlli di qualità dei dati. Tuttavia, Dataplex Universal Catalog offre un'esperienza gestita senza problemi per eseguire i controlli di qualità dei dati.
Come funzionano le attività relative alla qualità dei dati
Il seguente diagramma mostra come funzionano le attività di qualità dei dati di Dataplex Universal Catalog:
Input degli utenti
Specifica YAML: un insieme di uno o più file YAML che definiscono regole di qualità dei dati
in base alla sintassi della specifica. Archivia i file YAML in un bucket Cloud Storage nel tuo progetto. Gli utenti possono eseguire più regole
contemporaneamente e queste regole possono essere applicate a diverse tabelle BigQuery, incluse quelle di diversi set di dati o Google Cloud
progetti. La specifica supporta le esecuzioni incrementali per la convalida solo dei nuovi dati. Per
creare una specifica YAML, consulta
Creare un file di specifiche.
Tabella dei risultati BigQuery: una tabella specificata dall'utente in cui vengono memorizzati i risultati della convalida della qualità dei dati. Il progetto Google Cloud in cui
risiede questa tabella può essere diverso da quello in cui viene utilizzato il
task di qualità dei dati di Dataplex Universal Catalog.
Tabelle da convalidare
All'interno della specifica YAML, devi specificare le tabelle che vuoi
convalidare per quali regole, note anche come associazione di regole. Le tabelle possono essere
tabelle native BigQuery o tabelle esterne BigQuery
in Cloud Storage. La specifica YAML consente di specificare le tabelle
all'interno o all'esterno di una zona Dataplex Universal Catalog.
Le tabelle BigQuery e Cloud Storage convalidate
in una singola esecuzione possono appartenere a progetti diversi.
Attività di qualità dei dati di Dataplex Universal Catalog: un'attività di qualità dei dati di Dataplex Universal Catalog è configurata con un binario PySpark CloudDQ predefinito e gestito e accetta le specifiche YAML e la tabella dei risultati BigQuery come input. Analogamente ad altre
attività di Dataplex Universal Catalog, l'attività di qualità dei dati di Dataplex Universal Catalog viene eseguita in un ambiente Spark serverless, converte la specifica YAML in query BigQuery ed esegue queste query sulle tabelle definite nel file di specifiche.
Prezzi
Quando esegui attività di qualità dei dati di Dataplex Universal Catalog, ti vengono addebitati i costi per l'utilizzo di BigQuery e Dataproc Serverless (batch).
L'attività di qualità dei dati di Dataplex Universal Catalog converte il file di specifiche
in query BigQuery e le esegue nel progetto utente. Vedi
Prezzi di BigQuery.
Dataplex Universal Catalog utilizza Spark per eseguire il programma driver open source CloudDQ predefinito e gestito da Google per convertire le specifiche dell'utente in query BigQuery. Consulta i prezzi di Dataproc Serverless.
Non sono previsti costi per l'utilizzo di Dataplex Universal Catalog per organizzare i dati o per l'utilizzo dello scheduler serverless
in Dataplex Universal Catalog per pianificare i controlli della qualità dei dati. Consulta
Prezzi del Catalogo universale Dataplex.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-10 UTC."],[[["\u003cp\u003eDataplex data quality tasks enable users to define and execute data quality checks on tables in BigQuery and Cloud Storage, also allowing for the implementation of regular data controls in BigQuery environments.\u003c/p\u003e\n"],["\u003cp\u003eThese tasks offer benefits such as customizable rule specifications using YAML syntax, a serverless implementation, zero-copy and automatic pushdown for efficiency, and the ability to schedule checks.\u003c/p\u003e\n"],["\u003cp\u003eThe tasks use a YAML specification to define data quality rules and can validate tables both inside and outside of Dataplex zones, as well as across different projects.\u003c/p\u003e\n"],["\u003cp\u003eUsers can store validation results in a specified BigQuery table, which can be in a different project than the one where the Dataplex task runs.\u003c/p\u003e\n"],["\u003cp\u003eDataplex uses the open source CloudDQ for data quality checks, though users are provided a managed experience, and cost is based on BigQuery and Dataproc Serverless (Batches) usage.\u003c/p\u003e\n"]]],[],null,["# Data quality tasks overview\n\n| **Caution:** Dataplex Universal Catalog data quality tasks is a legacy offering based on open source software. We recommend that you start using the latest built-in [Automatic data quality](/dataplex/docs/auto-data-quality-overview) offering.\n\nDataplex Universal Catalog data quality tasks let you define and run\ndata quality checks across tables in BigQuery and\nCloud Storage. Dataplex Universal Catalog data quality tasks also let you\napply regular data controls in BigQuery environments.\n\nWhen to create Dataplex Universal Catalog data quality tasks\n------------------------------------------------------------\n\nDataplex Universal Catalog data quality tasks can help you with the following:\n\n- Validate data as part of a data production pipeline.\n- Routinely monitor the quality of datasets against your expectations.\n- Build data quality reports for regulatory requirements.\n\nBenefits\n--------\n\n- **Customizable specifications.** You can use the highly flexible YAML syntax to declare your data quality rules.\n- **Serverless implementation.** Dataplex Universal Catalog does not need any infrastructure setup.\n- **Zero-copy and automatic pushdown.** YAML checks are converted to SQL and pushed down to BigQuery, resulting in no data copy.\n- **Schedulable data quality checks.** You can schedule data quality checks through the serverless scheduler in Dataplex Universal Catalog, or use the Dataplex API through external schedulers like Cloud Composer for pipeline integration.\n- **Managed experience.** Dataplex Universal Catalog uses an open source data quality engine, [CloudDQ](https://github.com/GoogleCloudPlatform/cloud-data-quality), to run data quality checks. However, Dataplex Universal Catalog provides a seamless managed experience for performing your data quality checks.\n\nHow data quality tasks work\n---------------------------\n\nThe following diagram shows how Dataplex Universal Catalog data quality tasks work:\n\n- **Input from users**\n - **YAML specification** : A set of one or more YAML files that define data quality rules based on the specification syntax. You store the YAML files in a Cloud Storage bucket in your project. Users can run multiple rules simultaneously, and those rules can be applied to different BigQuery tables, including tables across different datasets or Google Cloud projects. The specification supports incremental runs for only validating new data. To create a YAML specification, see [Create a specification file](/dataplex/docs/check-data-quality#create-a-specification-file).\n - **BigQuery result table**: A user-specified table where the data quality validation results are stored. The Google Cloud project in which this table resides can be a different project than the one in which the Dataplex Universal Catalog data quality task is used.\n- **Tables to validate**\n - Within the YAML specification, you need to specify which tables you want to validate for which rules, also known as a *rule binding*. The tables can be BigQuery native tables or BigQuery external tables in Cloud Storage. The YAML specification lets you specify tables inside or outside a Dataplex Universal Catalog zone.\n - BigQuery and Cloud Storage tables that are validated in a single run can belong to different projects.\n- **Dataplex Universal Catalog data quality task** : A Dataplex Universal Catalog data quality task is configured with a prebuilt, maintained CloudDQ PySpark binary and takes the YAML specification and BigQuery result table as the input. Similar to other [Dataplex Universal Catalog tasks](/dataplex/docs/schedule-custom-spark-tasks), the Dataplex Universal Catalog data quality task runs on a serverless Spark environment, converts the YAML specification to BigQuery queries, and then runs those queries on the tables that are defined in the specification file.\n\nPricing\n-------\n\nWhen you run Dataplex Universal Catalog data quality tasks, you are charged for\nBigQuery and Dataproc Serverless (Batches) usage.\n\n- The Dataplex Universal Catalog data quality task converts the specification file\n to BigQuery queries and runs them in the user project. See\n [BigQuery pricing](/bigquery/pricing).\n\n- Dataplex Universal Catalog uses Spark to run the prebuilt, Google-maintained [open source CloudDQ](https://github.com/GoogleCloudPlatform/cloud-data-quality)\n driver program to convert user specification to BigQuery\n queries. See [Dataproc Serverless pricing](/dataproc-serverless/pricing).\n\nThere are no charges for using Dataplex Universal Catalog to organize data or using the serverless\nscheduler in Dataplex Universal Catalog to schedule data quality checks. See\n[Dataplex Universal Catalog pricing](/dataplex/pricing).\n\nWhat's next\n-----------\n\n- [Create Dataplex Universal Catalog data quality checks](/dataplex/docs/check-data-quality)."]]