Acerca de la creación de perfiles de datos

La creación de perfiles de datos de Universal Catalog de Dataplex te permite identificar las características estadísticas comunes de las columnas de tus tablas de BigQuery. Esta información te ayuda a entender y analizar tus datos de forma más eficaz.

La información como los valores de datos típicos, la distribución de los datos y el número de valores nulos puede acelerar el análisis. Si se combina con la clasificación de datos, la creación de perfiles de datos puede detectar clases de datos o información sensible que, a su vez, pueden habilitar políticas de control de acceso.

Dataplex Universal Catalog también usa esta información para recomendar reglas para las comprobaciones de calidad de los datos.

Modelo conceptual

Dataplex Universal Catalog te permite conocer mejor el perfil de tus datos creando un análisis de perfil de datos.

En el siguiente diagrama se muestra cómo analiza los datos Dataplex Universal Catalog para generar informes sobre las características estadísticas.

Un análisis de perfil de datos analiza los datos de una tabla para generar un informe sobre las características estadísticas.

Un análisis de perfil de datos se asocia a una tabla de BigQuery y analiza la tabla para generar los resultados de la creación de perfiles de datos. Un análisis de perfil de datos admite varias opciones de configuración.

Opciones de configuración

En esta sección se describen las opciones de configuración disponibles para ejecutar análisis de perfiles de datos.

Opciones de programación

Puedes programar un análisis de perfil de datos con una frecuencia definida o ejecutarlo bajo demanda.

Ámbito

Puedes especificar el ámbito de los datos que se van a analizar:

  • Tabla completa: se analiza toda la tabla en el análisis de perfil de datos. El muestreo, los filtros de filas y los filtros de columnas se aplican a toda la tabla antes de calcular las estadísticas de creación de perfiles.

  • Incremental: los datos incrementales que especifiques se analizarán en el análisis del perfil de datos. Especifica una columna Date o Timestamp de la tabla para usarla como incremento. Normalmente, se trata de la columna en la que se crean las particiones de la tabla. El muestreo, los filtros de filas y los filtros de columnas se aplican a los datos incrementales antes de calcular las estadísticas de creación de perfiles.

Filtrar datos

Puede filtrar los datos que se van a analizar para crear perfiles mediante filtros de filas y de columnas. Los filtros te ayudan a reducir el tiempo de ejecución y el coste, así como a excluir datos sensibles e inútiles.

  • Filtros de filas: le permiten centrarse en los datos de un periodo específico o de un segmento concreto, como una región. Por ejemplo, puedes filtrar los datos que tengan una marca de tiempo anterior a una fecha determinada.

  • Filtros de columnas: los filtros de columnas le permiten incluir y excluir columnas específicas de su tabla para ejecutar el análisis del perfil de datos.

Datos de ejemplo

Puede especificar un porcentaje de registros de sus datos para hacer un muestreo y ejecutar un análisis de perfil de datos. Si creas análisis de perfil de datos en una muestra de datos más pequeña, puedes reducir el tiempo de ejecución y el coste de consultar todo el conjunto de datos.

Varios análisis de perfil de datos

Puedes crear varias verificaciones de perfil de datos a la vez mediante la Google Cloud consola. Puede seleccionar hasta 100 tablas de un conjunto de datos y crear un análisis de perfil de datos para cada conjunto de datos. Para obtener más información, consulta Crear varios análisis de perfil de datos.

Exportar resultados de análisis a una tabla de BigQuery

Puede exportar los resultados del análisis del perfil de datos a una tabla de BigQuery para analizarlos más a fondo. Para personalizar los informes, puede conectar los datos de la tabla de BigQuery a un panel de Looker. Puedes generar un informe agregado usando la misma tabla de resultados en varios análisis.

Resultados de la creación de perfiles de datos

Los resultados de la creación de perfiles de datos incluyen los siguientes valores:

Tipo de columna Resultados de la creación de perfiles de datos
Columna numérica
  • Porcentaje de valores nulos.
  • Porcentaje de valores únicos (distintos) aproximados.
  • Los 10 valores más comunes de la columna. Puede ser inferior a 10 si el número de valores únicos de la columna es inferior a 10 (no se incluyen los valores nulos). En cada uno de estos valores más comunes, se muestra el porcentaje de ocurrencia en los datos analizados en el análisis actual.
  • Valores medios, desviación estándar, mínimo, cuartil inferior aproximado, mediana aproximada, cuartil superior aproximado y máximo.
Columna de cadena
  • Porcentaje de valores nulos.
  • Porcentaje de valores únicos (distintos) aproximados.
  • Los 10 valores más comunes de la columna, que pueden ser menos de 10 si el número de valores únicos de la columna es inferior a 10.
  • Longitud media, mínima y máxima de la cadena.
Otras columnas no anidadas (fecha, hora, marca de tiempo, binario, etc.)
  • Porcentaje de valores nulos.
  • Porcentaje de valores únicos (distintos) aproximados.
  • Los 10 valores más comunes de la columna, que pueden ser menos de 10 si el número de valores únicos de la columna es inferior a 10.
Todas las demás columnas de tipo de datos anidadas o complejas (como Record, Array o JSON) o cualquier columna con el modo repeated.
  • Porcentaje de valores nulos.

Los resultados incluyen el número de registros analizados en cada trabajo.

Informes y supervisión

Puede monitorizar y analizar los resultados de la creación de perfiles de datos mediante los siguientes informes y métodos:

  • Informes publicados con la tabla de origen en las páginas Catálogo universal de BigQuery y Catálogo universal de Dataplex

    Si ha configurado un análisis de perfil de datos para publicar los resultados en las páginas Catálogo universal de BigQuery y Catálogo universal de Dataplex de la consola deGoogle Cloud , puede ver los resultados del análisis de perfil de datos más reciente en estas páginas, en la pestaña Perfil de datos de la tabla de origen, desde cualquier proyecto.

    Informes publicados.

  • Historial de informes por trabajo

    En la página Elaboración de perfiles y calidad de los datos > Análisis de perfil de datos de Dataplex Universal Catalog y BigQuery, puede ver los informes detallados de los trabajos más recientes y de los anteriores. Esto incluye la información de perfil a nivel de columna y la configuración que se ha usado.

    Historial por informe de trabajo.

  • Pestaña Análisis

    En la página Perfil y calidad de los datos > Análisis del perfil de los datos de Dataplex Universal Catalog y BigQuery, puede usar la pestaña Análisis para ver las tendencias de una estadística concreta de una columna en varios trabajos de perfil. Por ejemplo, si tiene un análisis incremental, puede ver cómo ha evolucionado la media de un valor a lo largo del tiempo.

    Pestaña Análisis.

  • Crea tu propio panel de control o analíticas

    Si has configurado un análisis de perfil de datos para exportar los resultados a una tabla de BigQuery, puedes crear tus propios paneles con herramientas como Looker Studio.

Limitaciones

  • La creación de perfiles de datos se admite en tablas de BigQuery con todos los tipos de columna, excepto BIGNUMERIC. Si se crea un análisis para una tabla con una columna BIGNUMERIC , se produce un error de validación y no se crea correctamente.

Precios

Para obtener más información sobre los precios, consulta la página Precios de Dataplex Universal Catalog.

Siguientes pasos