¿Qué es el linaje de datos?

El linaje de datos es como un GPS para la información de una empresa, ya que traza su recorrido completo y muestra de dónde vino, a dónde fue y todos los pasos que dio en el camino. Con el seguimiento de este recorrido, las organizaciones pueden confiar en sus datos y usarlos para tomar decisiones fundamentales.

Definición del linaje de datos

El linaje de datos es un mapa del ciclo de vida de los datos que muestra dónde se originaron, cómo se movieron y transformaron con el tiempo, y dónde residen ahora. Proporciona una pista de auditoría clara para comprender los datos, validarlos y hacerles un seguimiento.

Esta vista integral incluye los sistemas de origen, todas las transformaciones aplicadas (como cálculos, agregaciones o filtros) y los destinos en los que se consumen los datos, como informes, paneles o aplicaciones. Piensa en él como un árbol genealógico detallado de cada dato que usa tu empresa.

Linaje de datos versus procedencia de los datos

Aunque a menudo se usan juntos, el linaje de datos y la procedencia de los datos se enfocan en diferentes aspectos del recorrido de los datos.

El linaje de datos analiza el recorrido de los datos desde una perspectiva macro, histórica y estratégica. Se enfoca en la ruta completa y la lógica de transformación que llevó al estado actual de un recurso de datos. Es todo el mapa.
La procedencia de los datos es más específica, y suele enfocarse en la fuente inmediata y la propiedad de un dato o registro específico en un momento determinado. A menudo, se usa para autenticar el origen de un dato.

En resumen, el linaje muestra toda la evolución de los datos a lo largo del tiempo y en todos los sistemas, mientras que la procedencia suele centrarse en la fuente y la autenticidad de un dato en particular.

Cómo funciona el linaje de datos

Capturar el linaje de los datos era un proceso difícil y, en su mayoría, manual, pero las soluciones modernas en la nube ayudan a que sea altamente automatizado. El concepto principal es observar cómo se mueven y cambian los datos en tu infraestructura y, luego, crear un registro visual y rastreable.

Captura automática del linaje y la API de linaje de datos

Las plataformas de datos modernas usan técnicas como el análisis y la supervisión para descubrir y asignar automáticamente flujos de datos.

Análisis: La plataforma puede leer y comprender la lógica de transformación escrita en lenguajes como SQL. Cuando se lee una consulta (por ejemplo, en un trabajo de BigQuery), el sistema puede ver qué tablas y columnas de origen se usaron para crear una tabla nueva derivada.
Supervisión: La plataforma observa el movimiento de datos entre diferentes servicios (como de un almacén de datos a un data lake o a una canalización de transmisión).

En este caso, las APIs de linaje de datos son una tecnología clave. Permite que diferentes sistemas y herramientas informen su uso de datos a un catálogo central. Por ejemplo, una herramienta de integración de datos puede usar la API para decirle al sistema central: “Acabo de mover datos de la Tabla A a la Tabla B y realicé una agregación”. Esto crea un registro preciso y casi en tiempo real del movimiento de los datos sin intervención manual.

Informes de linaje manuales y personalizados

Si bien la captura automática es ideal, es posible que no cubra todas las partes de los sistemas heredados o personalizados de una organización. En estos casos, los usuarios pueden depender del etiquetado manual de metadatos o de informes personalizados. Esto implica que los expertos en la materia documenten los flujos de datos y los vinculen en un catálogo central. Aunque es menos eficiente, a veces es necesario completar la vista de extremo a extremo.

Visualización y creación de informes de linaje

Una vez que se captura la información de linaje, se presenta a los usuarios a través de una herramienta de visualización, a menudo una interfaz web. Esta herramienta toma los metadatos complejos y los convierte en un gráfico o diagrama interactivo más fácil de leer. Los usuarios pueden hacer clic en un informe o una tabla y ver al instante un diagrama de flujo de cada fuente ascendente y consumidor descendente, lo que puede hacer que comprender el recorrido de los datos sea tan simple como seguir una línea en un mapa.

Componentes clave de un mapa de linaje de datos

Un buen mapa de linaje de datos puede ayudarte a responder rápidamente las preguntas “quién, qué, cuándo, dónde y por qué” sobre cualquier recurso de datos. Los componentes esenciales que se registran incluyen los siguientes:

Fuente: El origen de los datos, como una base de datos transaccional, un archivo o un sistema externo.
Lógica de transformación: Las operaciones o reglas de negocio específicas que se aplican a los datos; esto podría incluir consultas en SQL, secuencias de comandos de Python o lógica de trabajo de ETL (extracción, transformación y carga).
Ruta o flujo: La secuencia de sistemas, procesos y almacenes de datos por los que se mueven los datos.
Hora/versión: Cuándo se procesaron los datos y la versión de los datos o la lógica de transformación que se usó.
Destino/consumidor: El lugar final de los datos y quién o qué los usó, como un informe reglamentario o un modelo de aprendizaje automático.

Beneficios del linaje de datos

El linaje de datos no es solo un ejercicio técnico, sino que puede generar valor empresarial tangible mejorando la forma en que una organización administra sus datos y confía en ellos.

Mejora de la administración y el cumplimiento de datos

El linaje de datos ayuda a las organizaciones a demostrar exactamente qué fuentes de datos se usaron para crear informes sensibles, lo que a menudo se requiere para el cumplimiento normativo como el RGPD, la CCPA o la HIPAA.

Análisis de causa raíz más rápido para problemas de calidad de los datos

El linaje permite que los equipos técnicos rastreen rápidamente el dato defectuoso hacia atrás, a través de múltiples transformaciones y sistemas, hasta la fuente exacta donde se introdujo el error.

Análisis mejorado del impacto para los cambios en el sistema

El linaje de datos proporciona un análisis de impacto instantáneo. Con el seguimiento desde el cambio propuesto, los equipos pueden ver todos los informes, paneles o aplicaciones que dependen de esos datos, lo que les permite evaluar el riesgo y notificar a los consumidores de datos antes de que el cambio interrumpa algo.

Mayor confianza en los recursos de datos

Cuando los usuarios pueden verificar fácilmente el origen y los pasos de transformación de los datos que usan, su confianza en esos datos aumenta drásticamente. Esto puede llevar a decisiones más basadas en datos, ya que las personas no cuestionan la calidad o confiabilidad de la información subyacente.

Linaje de datos a IA

El linaje de datos también puede ayudar con el análisis de causa raíz para los modelos de IA. Si un modelo implementado comienza a mostrar una desviación (degradación del rendimiento) o genera predicciones sesgadas, el linaje permite a los científicos de datos rastrear rápidamente la fuente.

Tipos comunes de linaje de datos

El linaje de datos se puede rastrear en diferentes etapas del ciclo de vida del desarrollo de datos y en varios niveles de detalle, según la necesidad.

Linaje en tiempo de diseño

El linaje en tiempo de diseño captura el flujo de datos a medida que se diseña y configura en entornos de desarrollo y pruebas. Se basa en la lectura de los planos de las canalizaciones de datos, como los esquemas, las secuencias de comandos y la configuración de los trabajos de ETL. Te indica qué debería suceder con los datos.

Linaje en tiempo de ejecución

El linaje en tiempo de ejecución captura el flujo de datos tal como sucede en el entorno de producción. Registra las entradas y salidas específicas de los trabajos y procesos ejecutados. Te indica qué ocurrió con los datos, incluidos los errores o comportamientos inesperados. Para la administración de datos, el linaje en tiempo de ejecución suele considerarse más valioso, ya que refleja la realidad.

Niveles de linaje detallados

Como su nombre lo indica, el nivel de detalle es la cantidad de detalles entregados. Las organizaciones eligen un nivel de detalle en función de sus necesidades de administración de datos y la complejidad técnica de su entorno.

A nivel de tabla: Realiza un seguimiento del flujo de datos entre tablas o conjuntos de datos completos; muestra que la "Tabla de clientes A" fluyó hacia la "Tabla de informes de ventas B".
Ejemplo: Un sistema muestra que toda la tabla raw_transactions se cargó en la tabla daily_aggregations.
A nivel de columna: Realiza un seguimiento del flujo de datos desde una columna de origen hasta una columna de destino, incluidas las transformaciones aplicadas. Esto suele ser necesario para el cumplimiento.
Ejemplo: Realiza un seguimiento de la columna customer_id de la base de datos de origen que se cambió a user_key en el almacén de datos y, luego, se usó como parte de una unión para crear el informe final.
Nivel de informe: Realiza un seguimiento de qué informes, paneles o aplicaciones consumen qué tablas y columnas. Esto es fundamental para el análisis de impacto y la confianza de los usuarios empresariales.
Ejemplo: Un analista de negocios puede rastrear una métrica en el panel de ventas ejecutivo hasta las columnas y tablas específicas que se usaron en su cálculo.
De extremo a extremo: Proporciona una vista completa de todos los sistemas, desde la aplicación de origen inicial (como un CRM) hasta todos los pasos de almacenamiento intermedio, limpieza y transformación, hasta el informe final o el modelo de aprendizaje automático.
Ejemplo: Seguimiento del recorrido de un solo cliente desde que se registró por primera vez (capturado en la base de datos de la app web) hasta que su uso se resume en el resultado del modelo de predicción de deserción

Resuelve tus desafíos más difíciles con Google Cloud

Los clientes nuevos obtienen $300 en créditos gratuitos que pueden usar en Google Cloud.

Soluciones y productos relacionados

Google Cloud ofrece varios productos y servicios que pueden ayudar a las organizaciones a capturar, administrar y aprovechar automáticamente el linaje de datos en su infraestructura de nube.

Recursos relacionados

Para obtener más información sobre la implementación del linaje de datos con los productos de análisis de Google Cloud, consulta estas guías de documentación oficiales:

Acerca del linaje de datos: En este documento, se explica qué es el linaje de datos de Dataplex, se describe su flujo de trabajo desde las fuentes hasta la plataforma central y se detalla cómo proporciona un mapa claro, visual y programático del recorrido de tus datos.
Usa el linaje de datos con los sistemas de Google Cloud: En esta guía, se detalla cómo habilitar la API de Data Lineage, administrar los permisos necesarios de Identity and Access Management (IAM) y ver la información de linaje como un gráfico interactivo o una lista en la consola de Google Cloud en BigQuery, Dataplex y Vertex AI.
Linaje de datos con Dataplex Universal Catalog: En este documento, se detalla cómo habilitar la integración automática del linaje de datos en Cloud Composer 2, que usa el paquete apache-airflow-providers-openlineage para enviar eventos de linaje a la API de Data Lineage para los operadores compatibles.