El linaje de datos es como un GPS para la información de una empresa, ya que traza su recorrido completo y muestra de dónde vino, a dónde fue y todos los pasos que dio en el camino. Con el seguimiento de este recorrido, las organizaciones pueden confiar en sus datos y usarlos para tomar decisiones fundamentales.
El linaje de datos es un mapa del ciclo de vida de los datos que muestra dónde se originaron, cómo se movieron y transformaron con el tiempo, y dónde residen ahora. Proporciona una pista de auditoría clara para comprender los datos, validarlos y hacerles un seguimiento.
Esta vista integral incluye los sistemas de origen, todas las transformaciones aplicadas (como cálculos, agregaciones o filtros) y los destinos en los que se consumen los datos, como informes, paneles o aplicaciones. Piensa en él como un árbol genealógico detallado de cada dato que usa tu empresa.
Aunque a menudo se usan juntos, el linaje de datos y la procedencia de los datos se enfocan en diferentes aspectos del recorrido de los datos.
En resumen, el linaje muestra toda la evolución de los datos a lo largo del tiempo y en todos los sistemas, mientras que la procedencia suele centrarse en la fuente y la autenticidad de un dato en particular.
Capturar el linaje de los datos era un proceso difícil y, en su mayoría, manual, pero las soluciones modernas en la nube ayudan a que sea altamente automatizado. El concepto principal es observar cómo se mueven y cambian los datos en tu infraestructura y, luego, crear un registro visual y rastreable.
Las plataformas de datos modernas usan técnicas como el análisis y la supervisión para descubrir y asignar automáticamente flujos de datos.
En este caso, las APIs de linaje de datos son una tecnología clave. Permite que diferentes sistemas y herramientas informen su uso de datos a un catálogo central. Por ejemplo, una herramienta de integración de datos puede usar la API para decirle al sistema central: “Acabo de mover datos de la Tabla A a la Tabla B y realicé una agregación”. Esto crea un registro preciso y casi en tiempo real del movimiento de los datos sin intervención manual.
Si bien la captura automática es ideal, es posible que no cubra todas las partes de los sistemas heredados o personalizados de una organización. En estos casos, los usuarios pueden depender del etiquetado manual de metadatos o de informes personalizados. Esto implica que los expertos en la materia documenten los flujos de datos y los vinculen en un catálogo central. Aunque es menos eficiente, a veces es necesario completar la vista de extremo a extremo.
Una vez que se captura la información de linaje, se presenta a los usuarios a través de una herramienta de visualización, a menudo una interfaz web. Esta herramienta toma los metadatos complejos y los convierte en un gráfico o diagrama interactivo más fácil de leer. Los usuarios pueden hacer clic en un informe o una tabla y ver al instante un diagrama de flujo de cada fuente ascendente y consumidor descendente, lo que puede hacer que comprender el recorrido de los datos sea tan simple como seguir una línea en un mapa.
Un buen mapa de linaje de datos puede ayudarte a responder rápidamente las preguntas “quién, qué, cuándo, dónde y por qué” sobre cualquier recurso de datos. Los componentes esenciales que se registran incluyen los siguientes:
El linaje de datos no es solo un ejercicio técnico, sino que puede generar valor empresarial tangible mejorando la forma en que una organización administra sus datos y confía en ellos.
Mejora de la administración y el cumplimiento de datos
El linaje de datos ayuda a las organizaciones a demostrar exactamente qué fuentes de datos se usaron para crear informes sensibles, lo que a menudo se requiere para el cumplimiento normativo como el RGPD, la CCPA o la HIPAA.
Análisis de causa raíz más rápido para problemas de calidad de los datos
El linaje permite que los equipos técnicos rastreen rápidamente el dato defectuoso hacia atrás, a través de múltiples transformaciones y sistemas, hasta la fuente exacta donde se introdujo el error.
Análisis mejorado del impacto para los cambios en el sistema
El linaje de datos proporciona un análisis de impacto instantáneo. Con el seguimiento desde el cambio propuesto, los equipos pueden ver todos los informes, paneles o aplicaciones que dependen de esos datos, lo que les permite evaluar el riesgo y notificar a los consumidores de datos antes de que el cambio interrumpa algo.
Mayor confianza en los recursos de datos
Cuando los usuarios pueden verificar fácilmente el origen y los pasos de transformación de los datos que usan, su confianza en esos datos aumenta drásticamente. Esto puede llevar a decisiones más basadas en datos, ya que las personas no cuestionan la calidad o confiabilidad de la información subyacente.
Linaje de datos a IA
El linaje de datos también puede ayudar con el análisis de causa raíz para los modelos de IA. Si un modelo implementado comienza a mostrar una desviación (degradación del rendimiento) o genera predicciones sesgadas, el linaje permite a los científicos de datos rastrear rápidamente la fuente.
El linaje de datos se puede rastrear en diferentes etapas del ciclo de vida del desarrollo de datos y en varios niveles de detalle, según la necesidad.
El linaje en tiempo de diseño captura el flujo de datos a medida que se diseña y configura en entornos de desarrollo y pruebas. Se basa en la lectura de los planos de las canalizaciones de datos, como los esquemas, las secuencias de comandos y la configuración de los trabajos de ETL. Te indica qué debería suceder con los datos.
El linaje en tiempo de ejecución captura el flujo de datos tal como sucede en el entorno de producción. Registra las entradas y salidas específicas de los trabajos y procesos ejecutados. Te indica qué ocurrió con los datos, incluidos los errores o comportamientos inesperados. Para la administración de datos, el linaje en tiempo de ejecución suele considerarse más valioso, ya que refleja la realidad.
Como su nombre lo indica, el nivel de detalle es la cantidad de detalles entregados. Las organizaciones eligen un nivel de detalle en función de sus necesidades de administración de datos y la complejidad técnica de su entorno.
Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.