Información acerca de la generación de perfiles de datos

La creación de perfiles de datos de Dataplex te permite identificar estadísticas de las columnas en tu tablas. Esta información te ayuda a comprender y analizar tus datos de manera más eficaz.

La información, como los valores de datos típicos, la distribución de los datos y los recuentos nulos, puede y acelerar el análisis. Cuando se combina con la clasificación de datos, el perfilamiento de datos puede detectar clases de datos o información sensible que, a su vez, pueden habilitar políticas de control de acceso.

Dataplex también usa esta información para recomendar reglas para las verificaciones de calidad de los datos.

Modelo conceptual

Dataplex te permite comprender mejor el perfil de tus datos la creación de un análisis de creación de perfiles de datos.

En el siguiente diagrama, se muestra cómo Dataplex analiza los datos para generar informes y datos estadísticos.

Un análisis de creación de perfiles de datos analiza datos de tablas para informar sobre características estadísticas.

Un análisis de creación de perfiles de datos se asocia con una tabla de BigQuery y analiza la tabla para generar los resultados de la creación de perfiles de datos. Un análisis de perfiles de datos admite varias opciones de configuración.

Opciones de configuración

En esta sección, se describen las opciones de configuración disponibles para ejecutar análisis de generación de perfiles de datos.

Opciones de programación

Puedes programar un análisis de creación de perfiles de datos con una frecuencia definida o a pedido a través de la API o la consola de Google Cloud.

Alcance

Como parte de la especificación de un análisis de generación de perfiles de datos, puedes especificar el alcance de un trabajo como una de las siguientes opciones:

  • Tabla completa: Se analiza toda la tabla en el análisis de perfil de datos. El muestreo, los filtros de filas y los filtros de columnas se aplican a toda la tabla antes de calcular las estadísticas de perfilación.

  • Incremental: Los datos incrementales que especifiques se analizan en los datos. análisis de perfil. Especifica una columna Date o Timestamp en la tabla que se debe como un incremento. Por lo general, esta es la columna en la que se particiona la tabla. El muestreo, los filtros de fila y los filtros de columna se aplican en el datos incrementales antes de calcular las estadísticas de generación de perfiles.

Filtra datos

Puedes filtrar los datos que se analizarán para la generación de perfiles usando filtros de filas y filtros de columna. El uso de filtros te ayuda a reducir el tiempo y el costo de ejecución, y a excluir datos sensibles y poco útiles.

  • Filtros de filas: Los filtros de filas te permiten enfocarte en los datos de un período específico período o de un segmento específico, como la región. Por ejemplo, puedes filtrar los datos con una marca de tiempo anterior a una fecha determinada.

  • Filtros de columnas: Los filtros de columnas te permiten incluir y excluir columnas específicas de tu tabla para ejecutar el análisis de creación de perfiles de datos.

Datos de muestra

Dataplex te permite especificar un porcentaje de registros de tus datos de muestra para ejecutar un análisis de creación de perfiles de datos. Creando los análisis de creación de perfiles de datos en una muestra más pequeña de datos puede reducir el el tiempo de ejecución y el costo de consultar todo el conjunto de datos.

Varios análisis de la creación de perfiles de datos

Dataplex te permite crear varios análisis de generación de perfiles de datos a la vez con la consola de Google Cloud. Puedes seleccionar hasta 100 tablas de un conjunto de datos y crear un análisis de perfilado de datos para cada conjunto de datos. Más información

Exporta los resultados del análisis a una tabla de BigQuery

Puedes exportar los resultados del análisis de creación de perfiles de datos a una tabla de BigQuery para un análisis más detallado. Para personalizar los informes, puedes conectar los datos de la tabla de BigQuery a un panel de Looker. Puedes crear un informe agregado usando la misma tabla de resultados en varios análisis.

Resultados de la creación de perfiles de datos

Los resultados de la generación de perfiles de datos incluyen los siguientes valores:

Tipo de columna Resultados de la creación de perfiles de datos
Columna numérica
  • Porcentaje de valores nulos.
  • Porcentaje de valores únicos (distintos) aproximados.
  • Los 10 valores más comunes de la columna. Puede ser inferior a 10 si el número de valores únicos en la columna es menor que 10 (los valores nulos no incluidas). Para cada uno de estos valores más comunes, se muestra el porcentaje de su ocurrencia en los datos analizados en el análisis actual.
  • Promedio, desviación estándar, mínimo, cuartil inferior aproximado, mediana aproximada, cuartil superior aproximado y valores máximos
Columna de cadena
  • Porcentaje de valores nulos.
  • Porcentaje de valores únicos (distintos) aproximados.
  • Los 10 valores más comunes de la columna, que pueden ser menores que 10 si el número de valores únicos en la columna sea menor que 10.
  • Es la longitud promedio, mínima y máxima de la cadena.
Otras columnas no anidadas (fecha, hora, marca de tiempo, binario, etcétera)
  • Porcentaje de valores nulos.
  • Porcentaje de valores únicos (distintos) aproximados.
  • Los 10 valores más comunes de la columna, que pueden ser menos de 10 si la cantidad de valores únicos en la columna es inferior a 10.
Todas las demás columnas anidadas o complejas de tipos de datos (como Record, Array, JSON) o cualquier columna con el modo repetido.
  • Porcentaje de valores nulos.

Los resultados incluyen la cantidad de registros analizados en cada ejecución.

Generación de informes y supervisión

Puedes supervisar y analizar los resultados de la creación de perfiles de datos con las siguientes opciones: informes y métodos:

  • Informes publicados con la tabla de origen en las páginas de BigQuery y Data Catalog

    Si configuraste un análisis de perfilado de datos para publicar los resultados en las páginas de BigQuery y Data Catalog del la consola de Google Cloud, puedes ver el análisis más reciente de la creación de perfiles los resultados en estas páginas de la pestaña Perfil de datos de cualquier proyecto.

    Informes publicados.

  • Histórico, por informe de trabajo en Dataplex

    En la página Perfil de Dataplex, puedes ver los detalles y acceder a informes sobre los trabajos históricos y más recientes. Esto incluye el perfil a nivel de columna información y la configuración que se usó.

    Informe histórico por trabajo

  • Pestaña Análisis

    En la página Perfil de Dataplex, puedes usar el panel Análisis. pestaña para ver las tendencias de una estadística determinada de una columna durante varios trabajos de perfil. Por ejemplo, si tienes un análisis incremental, puedes ver cómo el promedio de un valor ha tenido tendencias a lo largo del tiempo.

    Pestaña Análisis.

  • Crea tu propio panel o estadísticas

    Si configuraste un análisis de creación de perfiles de datos para exportar o guardar resultados en un en una tabla de BigQuery, puedes crear tus propios paneles herramientas, como Looker Studio.

Limitaciones

  • Los resultados de la creación de perfiles de datos no se publican en Data Catalog como rótulos nuevos rápidamente.
  • La creación de perfiles de datos es compatible con las tablas de BigQuery con todas las columnas excepto BIGNUMERIC. Un análisis creado para una tabla con una columna BIGNUMERIC genera un error de validación y no se crea correctamente.
  • Las tablas de BigQuery que se analizarán deben tener 300 columnas o menos.

Precios

  • Dataplex usa el SKU de procesamiento premium para cobrar por los datos la generación de perfiles. Para obtener más información, consulta Precios.

  • La publicación de resultados de la creación de perfiles de datos en Data Catalog aún no está disponible. Cuando esté disponible, se le cobrará la misma tarifa que Precios de almacenamiento de metadatos del catálogo. Para obtener más información, consulta Precios.

  • El procesamiento premium de Dataplex para la generación de perfiles de datos se factura por segundo, con un mínimo de un minuto.

  • No se te cobra por los análisis de perfiles que fallan.

  • El cargo depende del número de filas, de columnas, de de análisis de datos, la partición y el agrupamiento en clústeres en la tabla, y la frecuencia de la búsqueda.

  • Existen varias opciones para reducir el costo de los análisis de creación de perfiles de datos:

    • Muestreo
    • Análisis incrementales
    • Filtrado de columnas
    • Filtrado de filas
  • Para separar los cargos de la generación de perfiles de datos de otros cargos en Dataplex SKU de procesamiento premium, en la Informe de Facturación de Cloud, usa la etiqueta goog-dataplex-workload-type con el valor DATA_PROFILE.

  • Para filtrar los cargos agregados, usa las siguientes etiquetas:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Próximos pasos