Las tareas de calidad de los datos de Dataplex Universal Catalog te permiten definir y ejecutar comprobaciones de calidad de los datos en tablas de BigQuery y Cloud Storage. Las tareas de calidad de los datos de Dataplex Universal Catalog también te permiten aplicar controles de datos periódicos en entornos de BigQuery.
Cuándo crear tareas de calidad de los datos de Dataplex Universal Catalog
Las tareas de calidad de los datos de Dataplex Universal Catalog pueden ayudarte a hacer lo siguiente:
- Validar datos como parte de una canalización de producción de datos.
- Monitoriza periódicamente la calidad de los conjuntos de datos en comparación con tus expectativas.
- Generar informes de calidad de los datos para cumplir los requisitos normativos.
Ventajas
- Especificaciones personalizables. Puedes usar la sintaxis YAML, que es muy flexible, para declarar tus reglas de calidad de los datos.
- Implementación sin servidor. Dataplex Universal Catalog no necesita ninguna configuración de infraestructura.
- Copia cero y pushdown automático. Las comprobaciones de YAML se convierten en SQL y se envían a BigQuery, lo que implica que no se copian datos.
- Comprobaciones de calidad de los datos programables. Puedes programar comprobaciones de calidad de los datos mediante el programador sin servidor del catálogo universal de Dataplex o usar la API de Dataplex a través de programadores externos, como Cloud Composer, para la integración de la canalización.
- Experiencia gestionada. Dataplex Universal Catalog usa un motor de calidad de los datos de código abierto, CloudDQ, para realizar comprobaciones de calidad de los datos. Sin embargo, Dataplex Universal Catalog ofrece una experiencia gestionada fluida para realizar las comprobaciones de calidad de los datos.
Cómo funcionan las tareas de calidad de los datos
En el siguiente diagrama se muestra cómo funcionan las tareas de calidad de los datos de Dataplex Universal Catalog:
- Datos proporcionados por los usuarios
- Especificación YAML: conjunto de uno o varios archivos YAML que definen reglas de calidad de los datos basadas en la sintaxis de la especificación. Almacena los archivos YAML en un segmento de Cloud Storage de tu proyecto. Los usuarios pueden ejecutar varias reglas simultáneamente, y estas reglas se pueden aplicar a diferentes tablas de BigQuery, incluidas las de diferentes conjuntos de datos o proyectos. Google CloudLa especificación admite ejecuciones incrementales para validar solo los datos nuevos. Para crear una especificación YAML, consulta Crear un archivo de especificación.
- Tabla de resultados de BigQuery: tabla especificada por el usuario en la que se almacenan los resultados de la validación de la calidad de los datos. El Google Cloud proyecto en el que reside esta tabla puede ser diferente del proyecto en el que se usa la tarea de calidad de los datos de Dataplex Universal Catalog.
- Tablas que validar
- En la especificación YAML, debes indicar qué tablas quieres validar para qué reglas, lo que también se conoce como enlace de reglas. Las tablas pueden ser tablas nativas de BigQuery o tablas externas de BigQuery en Cloud Storage. La especificación YAML te permite especificar tablas dentro o fuera de una zona de Dataplex Universal Catalog.
- Las tablas de BigQuery y Cloud Storage que se validan en una sola ejecución pueden pertenecer a proyectos diferentes.
- Tarea de calidad de los datos de Dataplex Universal Catalog: se configura con un archivo binario de PySpark de CloudDQ prediseñado y mantenido, y toma la especificación YAML y la tabla de resultados de BigQuery como entrada. Al igual que otras tareas de Dataplex Universal Catalog, la tarea de calidad de los datos de Dataplex Universal Catalog se ejecuta en un entorno de Spark sin servidor, convierte la especificación YAML en consultas de BigQuery y, a continuación, ejecuta esas consultas en las tablas definidas en el archivo de especificación.
Precios
Cuando ejecutas tareas de calidad de datos de Dataplex Universal Catalog, se te cobra por el uso de BigQuery y Dataproc Serverless (lotes).
La tarea de calidad de los datos de Universal Catalog de Dataplex convierte el archivo de especificación en consultas de BigQuery y las ejecuta en el proyecto del usuario. Consulta los precios de BigQuery.
Dataplex Universal Catalog usa Spark para ejecutar el programa de controlador CloudDQ de código abierto prediseñado y mantenido por Google para convertir las especificaciones del usuario en consultas de BigQuery. Consulta los precios de Dataproc Serverless.
No se aplican cargos por usar Dataplex Universal Catalog para organizar datos ni por usar el programador sin servidor de Dataplex Universal Catalog para programar comprobaciones de calidad de los datos. Consulta los precios de Dataplex Universal Catalog.