¿Qué es el linaje de datos?

El linaje de datos es como un GPS para la información de una empresa, ya que traza su recorrido completo y muestra de dónde procede, dónde ha ido y todos los pasos que ha dado por el camino. Al hacer un seguimiento de este recorrido, las empresas pueden confiar en sus datos y usarlos para tomar decisiones importantes.

Definición de linaje de datos

El linaje de datos es un mapa del ciclo de vida de los datos que muestra dónde se originaron, cómo se movieron y transformaron con el tiempo, y dónde residen ahora. Proporciona una ruta de auditoría clara para comprender, hacer un seguimiento y validar los datos.

Esta vista integral incluye los sistemas de origen, todas las transformaciones aplicadas (como cálculos, agregaciones o filtros) y los destinos donde se consumen los datos, como informes, paneles de control u otras aplicaciones. Es como un árbol genealógico detallado de cada dato que usa tu empresa.

Linaje de datos frente a procedencia de datos

Aunque suelen usarse juntos, el linaje de datos y la procedencia de datos se centran en diferentes aspectos del recorrido de los datos.

  • El linaje de datos analiza el recorrido de los datos desde una perspectiva macro, histórica y estratégica. Se centra en la ruta completa y la lógica de transformación que han llevado al estado actual de un recurso de datos. Es todo el mapa.
  • La procedencia de los datos es más granular y específica, y suele centrarse en la fuente inmediata y la propiedad de un punto de datos o registro concreto en un momento determinado. Se suele usar para autenticar el origen de un fragmento de datos.

En resumen, la linaje muestra toda la evolución de los datos a lo largo del tiempo y en todos los sistemas, mientras que la procedencia suele centrarse en la fuente y la autenticidad de un elemento de datos concreto.

Cómo funciona el linaje de datos

Antes, capturar el linaje de datos era un proceso difícil y, en su mayor parte, manual. Sin embargo, las soluciones modernas en la nube ayudan a automatizarlo en gran medida. El concepto principal es observar cómo se mueven y cambian los datos en tu infraestructura y, después, crear un registro visual y rastreable.

Las plataformas de datos modernas utilizan técnicas como el análisis sintáctico y la monitorización para descubrir y asignar automáticamente los flujos de datos.

  • Análisis: la plataforma puede leer y entender la lógica de transformación escrita en lenguajes como SQL. Al leer una consulta (por ejemplo, en una tarea de BigQuery), el sistema puede ver qué tablas y columnas de origen se han usado para crear una tabla derivada.
  • Monitorización: la plataforma supervisa el movimiento de datos entre distintos servicios (por ejemplo, de un almacén de datos a un data lake o una canalización de streaming).

Una API de linaje de datos es una tecnología clave en este sentido. Permite que diferentes sistemas y herramientas informen de su uso de datos a un catálogo central. Por ejemplo, una herramienta de integración de datos puede usar la API para indicar al sistema central: "Acabo de mover datos de la tabla A a la tabla B y he realizado una agregación". De esta forma, se crea un registro preciso y casi en tiempo real del movimiento de los datos sin intervención manual.

Aunque la captura automática es ideal, puede que no cubra todas las partes de los sistemas antiguos o personalizados de una organización. En estos casos, los usuarios pueden recurrir al etiquetado manual de metadatos o a los informes personalizados. Esto implica que los expertos en la materia documenten los flujos de datos y los vinculen en un catálogo central. Aunque es menos eficiente, a veces es necesario para completar la vista integral.

Una vez que se captura la información de linaje, se presenta a los usuarios a través de una herramienta de visualización, que suele ser una interfaz web. Esta herramienta toma los metadatos complejos y los convierte en un gráfico o diagrama interactivo más fácil de leer. Los usuarios pueden hacer clic en un informe o una tabla y ver al instante un diagrama de flujo de cada fuente ascendente y consumidor descendente, lo que puede hacer que entender el recorrido de los datos sea tan sencillo como seguir una línea en un mapa

Componentes clave de un mapa de linaje de datos

Un buen mapa de linaje de datos puede ayudarte a responder rápidamente a las preguntas "quién, qué, cuándo, dónde y por qué" sobre cualquier recurso de datos. Los componentes esenciales que se monitorizan son los siguientes:

  • Fuente: el origen de los datos, como una base de datos transaccional, un archivo o un sistema externo.
  • Lógica de transformación: las operaciones o reglas empresariales específicas que se aplican a los datos. Esto puede incluir consultas de SQL, scripts de Python o lógica de tareas de ETL (extracción, transformación y carga).
  • Ruta o flujo: la secuencia de sistemas, procesos y almacenes de datos por los que pasan los datos.
  • Hora o versión: cuándo se procesaron los datos y qué versión de los datos o de la lógica de transformación se usó.
  • Destino o consumidor: el lugar donde se almacenan los datos y quién o qué los usa, como un informe normativo o una máquina.

Ventajas del linaje de datos

El linaje de datos no es solo un ejercicio técnico, sino que puede ayudar a generar valor empresarial tangible al mejorar la forma en que una organización gestiona sus datos y confía en ellos.

Mejora del la gobernanza y el cumplimiento de los datos

El linaje de datos ayuda a las organizaciones a demostrar exactamente qué fuentes de datos se han utilizado para crear informes sensibles, algo que a menudo se exige para cumplir normativas como el RGPD, la CCPA o la HIPAA.

Análisis de causa raíz más rápido para problemas de calidad de los datos

El linaje permite a los equipos técnicos rastrear rápidamente el punto de datos defectuoso hacia atrás, pasando por múltiples transformaciones y sistemas, hasta la fuente exacta donde se introdujo el error.

Análisis de impacto mejorado para cambios en el sistema

El linaje de datos proporciona un análisis de impacto instantáneo. Al rastrear hacia adelante desde el cambio propuesto, los equipos pueden ver todos los informes, paneles de control o aplicaciones que dependen de esos datos, lo que les permite evaluar el riesgo y notificar a los consumidores de datos antes de que el cambio afecte a algo.

Mayor confianza en los recursos de datos

Cuando los usuarios pueden verificar fácilmente el origen y los pasos de transformación de los datos que utilizan, su confianza en esos datos aumenta considerablemente. Esto puede llevar a tomar decisiones más basadas en datos, ya que los usuarios no cuestionan la calidad ni la fiabilidad de la información subyacente.

Linaje de datos a IA

El linaje de datos también puede ayudar a analizar las causas principales de los modelos de IA. Si un modelo desplegado empieza a mostrar una desviación (degradación del rendimiento) o genera predicciones sesgadas, el linaje permite a los científicos de datos rastrear rápidamente la fuente.

Tipos comunes de linaje de datos

El linaje de datos se puede monitorizar en distintas fases del ciclo de vida del desarrollo de datos y con diferentes niveles de detalle, en función de las necesidades.

Linaje durante el diseño

El linaje en tiempo de diseño captura el flujo de datos a medida que se diseña y configura en entornos de desarrollo y pruebas. Se basa en la lectura de los planos de los flujos de procesamiento de datos, como los esquemas, las secuencias de comandos y las configuraciones de tareas de ETL. Te indica qué debe ocurrir con los datos.

Linaje en tiempo de ejecución

El linaje en tiempo de ejecución captura el flujo de datos tal y como se produce en el entorno de producción. Registra las entradas y salidas específicas de los procesos y trabajos ejecutados. Te indica qué ha ocurrido con los datos, incluidos los errores o comportamientos inesperados. En cuanto al gobierno de datos, el linaje en tiempo de ejecución suele considerarse más valioso, ya que refleja la realidad.

Niveles de linaje granulares

El nivel de detalle que se registra se denomina granularidad. Las empresas eligen un nivel de granularidad en función de sus necesidades de gobernanza de datos y de la complejidad técnica de su entorno.

  • Nivel de tabla: hace un seguimiento del flujo de datos entre tablas o conjuntos de datos completos. Por ejemplo, muestra que los datos de la tabla A de clientes se han transferido a la tabla B de informes de ventas.
  • Ejemplo: un sistema muestra que toda la tabla raw_transactions se ha cargado en la tabla daily_aggregations.
  • Nivel de columna: hace un seguimiento del flujo de datos desde una columna de origen hasta una columna de destino, incluidas las transformaciones aplicadas. Esto suele ser necesario para cumplir las normativas.
  • Ejemplo: hace un seguimiento de que la columna customer_id de la base de datos de origen se cambió a user_key en el almacén de datos y, después, se usó como parte de una unión para crear el informe final.
  • Nivel de informe: hace un seguimiento de qué informes, paneles de control o aplicaciones consumen qué tablas y columnas. Esto es fundamental para el análisis de impacto y la confianza de los usuarios empresariales.
  • Ejemplo: un analista de empresa puede rastrear una métrica del panel de control de ventas para ejecutivos hasta las columnas y tablas específicas que se han usado en su cálculo.
  • End-to-end: ofrece una vista completa de todos los sistemas, desde la aplicación de origen inicial (como un CRM) hasta todos los pasos de preparación, limpieza y transformación, pasando por el informe final o el modelo de aprendizaje automático.
  • Ejemplo: hacer un seguimiento del recorrido de un cliente desde que se registra por primera vez (información que se guarda en la base de datos de la aplicación web) hasta que su uso se resume en la salida del modelo de predicción de abandono.

Soluciona los retos empresariales que se te presenten con Google Cloud

Los nuevos clientes reciben 300 USD en crédito gratis para invertirlos en Google Cloud.

Ve un paso más allá

Empieza a crear en Google Cloud con 300 USD en crédito gratis y más de 20 productos Always Free.

Google Cloud