El linaje de datos es una función de Dataplex que te permite hacer un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se aplican a ellos.
¿Por qué necesitas el linaje de datos?
Trabajar con grandes conjuntos de datos suele implicar transformar los datos en entidades adaptadas a las necesidades de un proyecto específico: archivos de texto, tablas, informes, paneles y modelos.
Por ejemplo, imagina que tienes una tienda en línea en la que registras cada compra en una sola tabla de SQL. Para facilitarles a los analistas el trabajo con los datos, comienzas a ejecutar trabajos que extraen información de esta sola tabla y producen tablas más pequeñas por región, marca o precio de oferta. Luego, tus analistas comienzan a hacer lo mismo: realizan más transformaciones y combinan estas tablas más pequeñas con otras fuentes de datos para producir aún más tablas.
Esto puede convertirse en un gran desafío para las partes interesadas:
- Los consumidores de datos no pueden usar una herramienta de autoservicio para comprender si los datos provienen de una fuente confiable.
- Los ingenieros de datos no pueden identificar la causa raíz de los problemas debido a la falta de una forma confiable de hacer un seguimiento de todas las transformaciones de datos.
- Los ingenieros y analistas de datos no pueden evaluar por completo el posible impacto antes de modificar o borrar tablas.
- Los responsables de la administración de datos no pueden comprender cómo se usan los datos sensibles en toda la organización y garantizar el cumplimiento de los requisitos reglamentarios.
El linaje de datos es una solución que proporciona una forma práctica de hacer lo siguiente:
- Comprende cómo se originan y transforman los datos con la ayuda de visualizaciones de gráficos de linaje.
- Rastrea los errores relacionados con las entradas y las operaciones de datos hasta sus causas raíz.
- Permite una mejor administración de cambios a través del análisis de impacto: evita el tiempo de inactividad o los errores inesperados, comprende las entradas dependientes y colabora con las partes interesadas relevantes.
Modelo de información del linaje de datos
En su forma básica, el linaje es un registro de los datos que se transforman de fuentes a destinos. La API de Data Lineage recopila esa información y la organiza en un modelo de datos jerárquico con los conceptos de procesos, ejecuciones y eventos.
Proceso
Un proceso es la definición de una operación de transformación de datos compatible con un sistema específico. En el contexto del linaje de BigQuery,
un process
es uno de los tipos de trabajos admitidos.
Ejecutar
Una ejecución corresponde a la realización de un proceso. Los procesos pueden tener varias ejecuciones.
Las ejecuciones contienen detalles como las horas de inicio y finalización, el estado o atributos adicionales.
Para obtener más información, consulta la referencia de recursos run
.
Event
Un evento representa un momento en el que se realizó una operación de transformación de datos y se movieron datos entre una entidad de origen y una de destino.
Los eventos contienen una lista de vínculos que definen qué entrada fue la fuente y cuál fue el destino en un evento en particular. Si bien los eventos se usan para calcular los gráficos de visualización de linaje, no se exponen directamente en la consola de Google Cloud. Puedes crearlos, leerlos y borrarlos (pero no actualizarlos) con la API de Data Lineage.
Ejemplo
Considera el siguiente ejemplo en el que se copian datos entre tablas de BigQuery:
El proceso de linaje (representado en el gráfico por el ícono ) describe cómo se mueven los datos entre las tablas: puede ser una consulta CREATE TABLE AS SELECT
de SQL o una sentencia INSERT
.
Cada ejecución de esa instrucción de SQL constituiría una ejecución individual.
Las ejecuciones contienen eventos que registran qué tablas se usaron como fuentes y cuáles como objetivos. En este ejemplo, las tablas customer_year
y customers
son la fuente de la tabla top_customer
destino.
Gráfico de visualización de linaje
Los gráficos de linaje representan la información que recopila la API de Data Lineage para una entrada de Data Catalog en particular. Raíz hace referencia a la entrada para la que estás viendo el linaje.
Dataplex funciona con la API de Data Lineage para identificar las entradas cuyo nombre completamente calificado coincide con las entidades reconocidas por el linaje de datos. En el caso de las entradas de Dataplex que coincidan, puedes acceder a la pestaña Línea de origen en su página de detalles y ver el gráfico.
Los gráficos de linaje muestran dos tipos de elementos:
Son botones rectangulares anchos que representan entidades involucradas en la construcción de información de linaje como fuentes o destinos de un evento de linaje.
Botones cuadrados más pequeños que representan procesos responsables de crear o actualizar las entidades de origen o destino. Los botones de proceso usan íconos específicos del sistema de origen que los informó a la API de Data Lineage. Por ejemplo, las tareas de BigQuery usan el ícono .
Vista de lista de linaje
La vista de lista de linaje muestra información detallada del linaje de las entidades en una sola tabla.
En comparación con el gráfico de visualización de linaje, que es mejor para ver grafos de linaje relativamente pequeños, la vista de lista de linaje te permite ver la información de linaje de entidades con muchas conexiones.
En la siguiente imagen, se muestra un ejemplo de la vista de lista de linaje en la consola de Google Cloud. En la siguiente lista, se describe la imagen con más detalle.
Cada fila de la tabla representa un solo vínculo de linaje entre dos entradas. En el gráfico, estos nombres se representan como los vínculos de linaje entre dos entradas, incluidos los nodos de proceso intermedios. Por ejemplo,
Source
yTarget
son nodos de recursos, con posiblemente varios nodos de proceso en el medio.La opción Dirección especifica la parte del flujo de datos que se mostrará en la lista, en relación con el activo raíz:
Upstream: Muestra información de linaje para las entradas que son fuentes de datos de la entrada seleccionada. En el gráfico de linaje, estas entradas son las que aparecen a la izquierda de la entrada seleccionada.
Downstream: Muestra información de linaje para las entradas que usan la entrada seleccionada o se derivan de ella. En el gráfico de linaje, estas entradas son las que aparecen a la derecha de la entrada seleccionada.
La opción Intervalo de tiempo te permite filtrar la información del linaje según el momento en que ocurrió:
Hora de inicio: Muestra el linaje que ocurrió después de la hora de inicio.
Hora de finalización: Muestra el linaje que ocurrió antes de la hora de finalización.
La profundidad se refiere a qué tan alejado está un recurso derivado o de origen del recurso raíz. La vista de lista muestra hasta 1,000 vínculos de linaje, con la profundidad máxima desde la raíz de 10 vínculos de linaje. Si hay algún linaje fuera de este rango, recibirás una notificación. Para ver el linaje fuera de este rango, selecciona el nombre de una entidad diferente en la vista de lista.
En el panel Detalles, se muestra información sobre la fuente del vínculo, el destino del vínculo y todos los procesos que lo crearon.
Puedes personalizar las columnas que se muestran en la tabla y filtrar los resultados. También puedes exportar los resultados a un archivo CSV.
Seguimiento automatizado del linaje de datos
Cuando habilitas la API de Data Lineage, los sistemas de Google Cloud que admiten el linaje de datos comienzan a informar su movimiento de datos. Cada sistema integrado puede enviar información de linaje para un rango diferente de fuentes de datos. Para obtener más información sobre todos los productos compatibles, consulta las siguientes secciones.
BigQuery
Si habilitas el linaje de datos en tu proyecto de BigQuery, Dataplex puede registrar automáticamente la información del linaje para lo siguiente:
Tablas nuevas como resultado de los siguientes trabajos de BigQuery:
- Trabajos de copia
- Trabajos de carga que usan el URI de Cloud Storage para cargar datos en cualquier formato permitido desde Cloud Storage*
- Trabajos de consulta que usan el siguiente lenguaje de definición de datos (DDL) en SQL estándar de Google:
Tablas existentes como resultado del uso de las siguientes instrucciones del lenguaje de manipulación de datos (DML) en SQL estándar de Google:
- SELECT en relación con cualquiera de los siguientes tipos de tablas:
- INSERT SELECT
- MERGE
- ACTUALIZA
- BORRAR
Los trabajos de carga, copia y consulta de BigQuery se representan como procesos. Para ver los detalles del proceso, haz clic en en el gráfico de visualización del linaje. Cada proceso contiene el job_id de BigQuery en la lista de atributos del trabajo de BigQuery más reciente.
Otros servicios
El linaje de datos admite la integración con los siguientes servicios de Google Cloud:
Linaje de datos para fuentes de datos personalizadas
Puedes usar la API de Data Lineage en Dataplex para registrar la información del linaje de forma manual para cualquier fuente de datos que no sea compatible con los sistemas integrados.
Dataplex puede crear gráficos de visualización para el linaje registrado manualmente si usas un fullyQualifiedNames
que coincida con los nombres completamente calificados de las entradas existentes de Data Catalog. Si deseas registrar el linaje de una fuente de datos personalizada, primero crea una entrada personalizada de Data Catalog.
Cada proceso de la fuente de datos personalizada puede contener la clave sql
en la lista de atributos. El valor de esa clave se usará para renderizar el código destacado en el panel de detalles del gráfico de linaje de datos. La instrucción de SQL se mostrará como se proporcionó. El usuario es responsable de filtrar la información sensible. El nombre de clave sql
distingue mayúsculas de minúsculas.
OpenLineage
Si ya usas OpenLineage para recopilar información de linaje de otras fuentes de datos, puedes importar eventos de OpenLineage a Dataplex y mostrarlos en la consola de Google Cloud. Para obtener más información, consulta Cómo realizar la integración con OpenLineage.
Limitaciones
- Toda la información del linaje se retiene en el sistema durante 30 días únicamente.
- La información del linaje persiste después de quitar la fuente de datos relacionada. Es decir, si quitas una tabla de BigQuery y su entrada de Data Catalog, podrás leer el linaje de esa tabla con la API durante hasta 30 días.
Accede al linaje de datos
Puedes acceder a las funciones de linaje de datos con lo siguiente:
- Página de detalles de la entrada en la interfaz web de Dataplex en la consola de Google Cloud. Consulta Cómo ver gráficos de linaje.
- Página de detalles de la tabla en la interfaz web de BigQuery en la consola de Google Cloud. Consulta Cómo ver gráficos de linaje.
- Páginas de conjuntos de datos y Model Registry en la interfaz web de Vertex AI en la consola de Google Cloud. Consulta Cómo ver gráficos de linaje.
- API de Data Lineage
Precios
Dataplex usa el SKU de procesamiento premium para cobrar por el linage de datos. Para obtener más información, consulta Precios.
Para separar los cargos de linaje de datos de otros cargos en el SKU de procesamiento premium de Dataplex, en el informe de Facturación de Cloud, usa la etiqueta
goog-dataplex-workload-type
con el valorLINEAGE
.Si llamas a la API de Data Lineage
Origin
sourceType
con un valor distinto deCUSTOM
, se generarán costos adicionales.
¿Qué sigue?
Aprende a hacer un seguimiento del linaje de datos de una copia de tabla de BigQuery y trabajos de consulta.
Aprende a usar el linaje de datos con sistemas de Google Cloud.
Para obtener información administrativa, consulta las secciones actualizadas de IAM, las consideraciones de linaje y los registros de auditoría de linaje de datos.