La creación de perfiles de datos de Universal Catalog de Dataplex te permite identificar las características estadísticas comunes de las columnas de tus tablas de BigQuery. Esta información te ayuda a entender y analizar tus datos de forma más eficaz.
La información como los valores de datos típicos, la distribución de los datos y el número de valores nulos puede acelerar el análisis. Si se combina con la clasificación de datos, la creación de perfiles de datos puede detectar clases de datos o información sensible que, a su vez, pueden habilitar políticas de control de acceso.
Dataplex Universal Catalog también usa esta información para recomendar reglas para las comprobaciones de calidad de los datos.
Modelo conceptual
Dataplex Universal Catalog te permite conocer mejor el perfil de tus datos creando un análisis de perfil de datos.
En el siguiente diagrama se muestra cómo analiza los datos Dataplex Universal Catalog para generar informes sobre las características estadísticas.
Un análisis de perfil de datos se asocia a una tabla de BigQuery y analiza la tabla para generar los resultados de la creación de perfiles de datos. Un análisis de perfil de datos admite varias opciones de configuración.
Opciones de configuración
En esta sección se describen las opciones de configuración disponibles para ejecutar análisis de perfiles de datos.
Opciones de programación
Puedes programar un análisis de perfil de datos con una frecuencia definida o ejecutarlo bajo demanda.
Ámbito
Puedes especificar el ámbito de los datos que se van a analizar:
Tabla completa: se analiza toda la tabla en el análisis de perfil de datos. El muestreo, los filtros de filas y los filtros de columnas se aplican a toda la tabla antes de calcular las estadísticas de creación de perfiles.
Incremental: los datos incrementales que especifiques se analizarán en el análisis del perfil de datos. Especifica una columna
Date
oTimestamp
de la tabla para usarla como incremento. Normalmente, se trata de la columna en la que se crean las particiones de la tabla. El muestreo, los filtros de filas y los filtros de columnas se aplican a los datos incrementales antes de calcular las estadísticas de creación de perfiles.
Filtrar datos
Puede filtrar los datos que se van a analizar para crear perfiles mediante filtros de filas y de columnas. Los filtros te ayudan a reducir el tiempo de ejecución y el coste, así como a excluir datos sensibles e inútiles.
Filtros de filas: le permiten centrarse en los datos de un periodo específico o de un segmento concreto, como una región. Por ejemplo, puedes filtrar los datos que tengan una marca de tiempo anterior a una fecha determinada.
Filtros de columnas: los filtros de columnas le permiten incluir y excluir columnas específicas de su tabla para ejecutar el análisis del perfil de datos.
Datos de ejemplo
Puede especificar un porcentaje de registros de sus datos para hacer un muestreo y ejecutar un análisis de perfil de datos. Si creas análisis de perfil de datos en una muestra de datos más pequeña, puedes reducir el tiempo de ejecución y el coste de consultar todo el conjunto de datos.
Varios análisis de perfil de datos
Puedes crear varias verificaciones de perfil de datos a la vez mediante la Google Cloud consola. Puede seleccionar hasta 100 tablas de un conjunto de datos y crear un análisis de perfil de datos para cada conjunto de datos. Para obtener más información, consulta Crear varios análisis de perfil de datos.
Exportar resultados de análisis a una tabla de BigQuery
Puede exportar los resultados del análisis del perfil de datos a una tabla de BigQuery para analizarlos más a fondo. Para personalizar los informes, puede conectar los datos de la tabla de BigQuery a un panel de Looker. Puedes generar un informe agregado usando la misma tabla de resultados en varios análisis.
Resultados de la creación de perfiles de datos
Los resultados de la creación de perfiles de datos incluyen los siguientes valores:
Tipo de columna | Resultados de la creación de perfiles de datos |
---|---|
Columna numérica |
|
Columna de cadena |
|
Otras columnas no anidadas (fecha, hora, marca de tiempo, binario, etc.) |
|
Todas las demás columnas de tipo de datos anidadas o complejas (como Record, Array o JSON) o cualquier columna con el modo repeated. |
|
Los resultados incluyen el número de registros analizados en cada trabajo.
Informes y supervisión
Puede monitorizar y analizar los resultados de la creación de perfiles de datos mediante los siguientes informes y métodos:
Informes publicados con la tabla de origen en las páginas Catálogo universal de BigQuery y Catálogo universal de Dataplex
Si ha configurado un análisis de perfil de datos para publicar los resultados en las páginas Catálogo universal de BigQuery y Catálogo universal de Dataplex de la consola deGoogle Cloud , puede ver los resultados del análisis de perfil de datos más reciente en estas páginas, en la pestaña Perfil de datos de la tabla de origen, desde cualquier proyecto.
Historial de informes por trabajo
En la página Elaboración de perfiles y calidad de los datos > Análisis de perfil de datos de Dataplex Universal Catalog y BigQuery, puede ver los informes detallados de los trabajos más recientes y de los anteriores. Esto incluye la información de perfil a nivel de columna y la configuración que se ha usado.
Pestaña Análisis
En la página Perfil y calidad de los datos > Análisis del perfil de los datos de Dataplex Universal Catalog y BigQuery, puede usar la pestaña Análisis para ver las tendencias de una estadística concreta de una columna en varios trabajos de perfil. Por ejemplo, si tiene un análisis incremental, puede ver cómo ha evolucionado la media de un valor a lo largo del tiempo.
Crea tu propio panel de control o analíticas
Si has configurado un análisis de perfil de datos para exportar los resultados a una tabla de BigQuery, puedes crear tus propios paneles con herramientas como Looker Studio.
Limitaciones
- La creación de perfiles de datos se admite en tablas de BigQuery con todos los tipos de columna, excepto
BIGNUMERIC
. Si se crea un análisis para una tabla con una columnaBIGNUMERIC
, se produce un error de validación y no se crea correctamente.
Precios
Para obtener más información sobre los precios, consulta la página Precios de Dataplex Universal Catalog.
Siguientes pasos
- Consulta cómo usar la creación de perfiles de datos.
- Consulta información sobre la calidad de los datos automática.
- Consulta cómo usar la calidad de los datos automática.
- Consulta cómo explorar tus datos generando estadísticas.