El linaje de datos te ayuda a entender cómo se mueven los datos por tus sistemas mediante el seguimiento de las relaciones entre los recursos de datos y los procesos que los transforman. Puedes ver esta información de linaje en forma de gráficos y listas en la Google Cloud consola.
En este documento se ofrece una descripción general del modelo de información de linaje de datos, detalles sobre la granularidad del linaje a nivel de tabla y de columna, e instrucciones sobre cómo usar las vistas de gráfico y de lista para explorar el linaje de datos.
Modelo de información de linaje de datos
El linaje es un registro de los datos que se transforman de las fuentes a los destinos. La API Data Lineage recoge esta información y la organiza en un modelo de datos jerárquico que usa los conceptos de procesos, ejecuciones y eventos.
- Proceso: una definición de transformación de datos.
- Ejecución: ejecución de un proceso.
- Evento: registro del movimiento de datos durante una ejecución.
Proceso
Un proceso es la definición de una operación de transformación de datos para un sistema específico. En el linaje de BigQuery, un proceso es un trabajo de un tipo de trabajo admitido. Todas las ejecuciones de la misma consulta SQL están vinculadas a un único proceso, lo que te permite hacer un seguimiento de cada instancia en la que se utiliza una lógica de transformación específica.
Por ejemplo, la siguiente consulta SQL es un proceso. Esta consulta crea una tabla contando el número total de viajes de cada proveedor a partir de dos tablas de origen.
CREATE TABLE `dataplex-docs.data_lineage_demo.total_green_trips_22_21`
AS
SELECT
vendor_id,
COUNT(*) AS number_of_trips
FROM
(
SELECT vendor_id
FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2022`
UNION ALL
SELECT vendor_id
FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2021`
)
GROUP BY
vendor_id;
El formato del nombre de recurso REST de un proceso es
projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID
.
Por ejemplo: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6
Para obtener más información sobre el recurso process
, consulta la referencia del recurso Process.
Ejecutar
Una ejecución es una sola ejecución de un proceso. Los procesos pueden tener varias ejecuciones.
Cada ejecución es una operación única caracterizada por un startTime
, un endTime
y un estado final, como COMPLETED
, FAILED
o ABORTED
.
Por ejemplo, si ejecutas la consulta de SQL de la sección Proceso a las 9:00, se creará una ejecución específica. Si vuelves a ejecutar la misma consulta a las 10:00, se creará otra ejecución distinta. Ambas ejecuciones están vinculadas al mismo proceso principal.
El formato del nombre de recurso REST de una ejecución muestra que es un elemento secundario de un proceso:
projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID/runs/RUN_ID
.
Por ejemplo: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6/runs/83dd03a51cd2ac80f465c9e267a950b1
Para obtener más información sobre el recurso run
, consulta la referencia del recurso Run.
Evento
Un evento representa un momento en el que una transformación de datos mueve datos entre una entidad de origen y una de destino. Un evento es un registro granular de un movimiento de datos específico que conecta las tablas de origen y de destino de una ejecución concreta. Un evento también puede tener varios orígenes y destinos.
Por ejemplo, si tu ejecución ejecuta la consulta de SQL que se describe en la sección Proceso, un evento de linaje registra que las tablas de origen nyc_green_trips_2021
y nyc_green_trips_2022
se usan para crear la tabla de destino total_green_trips_22_21
.
Un evento de linaje contiene una lista de enlaces que definen el origen y el destino. Los eventos se usan para crear gráficos de linaje. Aunque la consola Google Cloud muestra estos gráficos de linaje, no muestra directamente eventos individuales. Puedes crear, leer y eliminar eventos, pero no actualizarlos, mediante la API Data Lineage.
Cada enlace de un evento define una única ruta de flujo de datos desde una entidad de origen a una entidad de destino. Una entidad es una referencia a un recurso de datos, como una tabla de BigQuery, y se identifica por su nombre completo (FQN). Un solo evento puede contener varios enlaces, lo que es habitual en operaciones como las combinaciones de tablas, en las que varias fuentes contribuyen a un objetivo.
Para obtener más información sobre cómo admiten los eventos el linaje a nivel de columna, consulta Linaje a nivel de columna.
Granularidad del linaje
El linaje de datos te permite rastrear el origen y la ruta de transformación de tus datos a nivel de tabla y de columna.
Linaje a nivel de tabla
El linaje a nivel de tabla ofrece una vista general de sus canalizaciones de datos mostrando las relaciones entre tablas completas. Usa el linaje a nivel de tabla para tareas a nivel macro, como las siguientes:
Descubrimiento de datos. Un analista que esté creando un nuevo panel de control puede usar el linaje a nivel de tabla para rastrear una tabla de resumen hasta sus fuentes y confirmar que los datos proceden de una base de datos autorizada.
Planificación de la migración. Un administrador de bases de datos que esté planeando migrar una base de datos principal puede usar el linaje a nivel de tabla para identificar todos los informes y paneles de control posteriores que dependan de ella.
Auditoría y gobernanza. Un administrador de datos puede usar el linaje a nivel de tabla y de columna para comprobar cómo fluyen los datos de una tabla que contiene información personal identificable (IPI) a través de una canalización.
Linaje a nivel de columna
El linaje a nivel de columna ofrece una vista más detallada, ya que monitoriza el flujo de datos entre columnas concretas. En esta vista, los enlaces de un evento de linaje representan la relación entre una columna de origen y una columna de destino. Cada uno de estos enlaces a nivel de columna tiene un tipo de dependencia que describe la transformación:
Exact copy
: los valores se copian entre columnas.Other
: otros tipos de dependencias entre columnas.
Usa el linaje a nivel de columna para tareas como las siguientes:
Análisis de causas. Si un analista de datos detecta un valor incorrecto en una columna, puede usar el linaje a nivel de columna para rastrearlo hasta las columnas de origen y encontrar la causa principal.
Análisis del impacto. Antes de que un ingeniero de datos retire una columna, puede usar el linaje a nivel de columna para encontrar todas las columnas posteriores que dependan de ella.
Verificación de la fuente de datos de las métricas. Un analista de datos puede usar el linaje a nivel de columna para identificar qué columnas de origen se usan para calcular una métrica sin tener que descifrar una consulta de SQL compleja.
El linaje a nivel de columna se recoge automáticamente en los siguientes tipos de tareas de BigQuery:
Vistas de linaje en la consola de Google Cloud
El linaje de datos de la consola de Google Cloud le permite interactuar con la información de linaje de dos formas: puede explorar el gráfico de linaje en varias regiones disponibles o usar el panel Explorador de linaje para obtener una vista más detallada en una región específica. También puede cambiar entre la vista Gráfico y la vista Lista para analizar el flujo de datos con diferentes niveles de detalle.
Las vistas de linaje solo están disponibles para las entradas de Dataplex Universal Catalog, los recursos de BigQuery y los recursos de Vertex AI (modelos, conjuntos de datos, vistas de Feature Store y grupos de características).
Para ver las diferentes vistas que se describen en esta página, consulta Usar el linaje de datos con sistemas Google Cloud .
Vista de gráfico de linaje
La vista Gráfico visualiza el flujo de los recursos de datos y las relaciones entre sistemas y regiones, lo que te ayuda a comprender la arquitectura de los datos, rastrear los orígenes y los destinos, e identificar patrones. Estos gráficos de linaje, generados por el servicio de la API Data Lineage para una entrada específica de Dataplex Universal Catalog, muestran cómo se transforman los datos a lo largo del tiempo. En ellos se muestran los flujos ascendentes, descendentes o ambos de una entrada raíz seleccionada.
La API Data Lineage recibe automáticamente información sobre los recursos de los sistemas compatibles y a través de llamadas a la API para fuentes personalizadas.
Los elementos clave del gráfico se describen a continuación:
Nodos. Representa las entidades de datos. En una vista de nivel de tabla, un nodo muestra el nombre de la tabla y sus columnas. En una vista a nivel de columna, cada nodo representa una tabla y una columna específicas.
Bordes. Las líneas que conectan los nodos y representan los procesos que se producen entre ellos. El aspecto de un borde depende de la vista del linaje:
- En la vista de nivel de tabla, los bordes tienen iconos que indican las transformaciones de datos.
- En la vista a nivel de columna, los bordes tienen etiquetas que indican las transformaciones de datos. Por ejemplo, una etiqueta de arista puede decir
Exact copy
para describir cómo se ha copiado una columna de origen en una columna de destino.
Procesa los iconos y las etiquetas. Aparecen en los bordes para proporcionar más información sobre la transformación.
- Iconos. Representa el proceso de transformación. Cuando exploras el gráfico manualmente, los iconos de los bordes representan el sistema de origen del proceso (por ejemplo, BigQuery o Vertex AI). Si hay varios procesos implicados, se muestra el icono "Varios procesos". Si se desconoce el sistema de origen del proceso, se usa un icono de engranaje. Cuando aplicas filtros, se usa un icono de rueda dentada para todos los procesos.
- Etiquetas. En la vista de linaje a nivel de columna, una etiqueta describe el tipo de dependencia entre columnas:
Exact copy
oOther
.
Explorar manualmente el gráfico de linaje
Cuando abres la pestaña Linaje, se muestra la vista Gráfico de forma predeterminada. La vista predeterminada ofrece una descripción general de los sistemas y las regiones, con una expansión manual e incremental del gráfico que puede cargar cinco nodos a la vez. Los iconos de proceso de los bordes representan el sistema de origen o indican varios procesos.

Aplicar filtros para obtener una vista de linaje específica
Para filtrar los datos de linaje y centrar el análisis en una región específica, usa el panel Explorador de linaje. Estos son algunos criterios que puedes usar para cambiar a una vista centrada:
- Nombre de la columna: filtra el linaje por nombre de columna para ver los detalles a nivel de columna.
- Dirección: muestra el linaje anterior o posterior, o ambos.
- Intervalo de tiempo: filtra el linaje en función de una hora de inicio o de finalización específica.
- Tipo de dependencia: filtra el linaje a nivel de columna en función del tipo de dependencia.
Por ejemplo,
All
oExact copy
.

La vista enfocada amplía automáticamente el gráfico hasta tres niveles y carga todo el linaje que coincida con los criterios de filtro. Admite el linaje a nivel de tabla y de columna, incluida la visualización de la ruta desde cualquier nodo seleccionado hasta la raíz. En esta vista centrada, se usa un icono de rueda dentada genérico para todos los procesos.

Para ver el linaje a nivel de columna, puede seguir uno de estos métodos:
En una vista de gráfico centrada, haga clic en el icono de columna de una tabla para cambiar al linaje a nivel de columna.
Icono de columna En la vista Gráfico predeterminada o en la vista Gráfico enfocada, aplique un nombre de columna en el panel Explorador de linaje.

Para quitar todos los filtros y volver a la vista predeterminada, haz clic en
Restablecer.Detalles del nodo
Para ver los detalles de un nodo, haz clic en él. Aparecerá un panel lateral con información detallada sobre el recurso de datos seleccionado. Por ejemplo, en una vista de linaje a nivel de tabla, al hacer clic en un nodo se muestra información como el nombre completo del recurso, el tipo y otros atributos relevantes.

Auditoría e historial de ejecuciones
Un gráfico de linaje completo es el resultado de ejecuciones de muchas tareas diferentes, y cada tarea crea un enlace específico en el gráfico. Se registran varias ejecuciones como nuevas ejecuciones, pero no cambian el aspecto estático del gráfico.
Para ver los detalles de estas ejecuciones individuales, haz clic en un borde con un proceso en el gráfico. En el panel Consulta que aparece, haz clic en la pestaña Ejecuciones.

Inspeccionar la lógica de transformación
Para entender la lógica empresarial de una transformación sin buscar el código, puedes ver la consulta de SQL exacta que se ha ejecutado. Para ver el código SQL, haz clic en un borde con un proceso en el gráfico. En el panel lateral que aparece, haz clic en la pestaña Detalles.
Visualización de la ruta de linaje
La visualización de la ruta de procedencia te ayuda a rastrear la ruta desde cualquier nodo seleccionado del gráfico hasta la entrada raíz. Cuando selecciona un nodo y hace clic en Visualizar ruta, el gráfico destaca solo los nodos y procesos que forman la ruta de linaje directa a la entrada raíz.
Para ver la visualización de la ruta de linaje, en el panel Explorador de linaje, aplica un filtro para crear una vista Gráfico centrada. A continuación, en la vista Gráfico enfocada, seleccione un nodo. En el panel de detalles del nodo seleccionado, haz clic en Visualizar ruta.
La visualización de la ruta de linaje está disponible para el linaje a nivel de tabla y de columna. También puedes usar la visualización de la ruta de procedencia en la vista Lista.

Vista de lista de linaje
La vista Lista ofrece una representación tabular y estructurada del linaje, sincronizada con la vista Gráfico. Facilita la ordenación, el filtrado y la descarga de recursos de datos. Esta vista es ideal para analizar las relaciones entre origen y destino, detallar los recursos implicados y exportar datos de linaje.
La vista Lista está disponible tanto para el linaje a nivel de tabla como a nivel de columna. Puedes alternar entre las siguientes vistas de lista detalladas y simplificadas.
Vista de lista simplificada: esta vista es útil para obtener una lista condensada y única de todos los recursos implicados en el linaje. Las columnas Sistema, Proyecto, Entidad, Nombre completo (FQN), Dirección y Profundidad te ayudan a ver todos los recursos de datos del linaje, dónde se encuentran, su fuente original y su distancia con respecto al recurso central que se está analizando. Es ideal para obtener una descripción general de alto nivel de todas las entidades que participan en el flujo de datos. Es la vista predeterminada.
Vista de lista detallada: esta vista se ha diseñado para analizar las relaciones entre fuentes y destinos individuales. Al proporcionar columnas independientes para Origen y Destino, puede ver cada enlace de transformación de datos específico. Esta vista es ideal para tareas que requieren un conocimiento profundo de cómo se mueven los datos entre pares de recursos específicos, como auditar flujos de datos individuales, comprender las dependencias entre tablas o exportar registros de linaje detallados de cada conexión.
Vista de lista de linaje a nivel de tabla
En esta vista se muestran las relaciones entre las tablas en su conjunto. Usa los filtros proporcionados para seleccionar las columnas que necesites.

Despliega las siguientes secciones para ver las columnas disponibles en las vistas de lista a nivel de tabla.
Columnas disponibles en la vista de lista simplificada a nivel de tabla
- Sistema: el sistema en el que se encuentra el recurso de datos. Por ejemplo, BigQuery.
- Proyecto: el Google Cloud ID de proyecto que contiene el recurso de datos.
- Entidad: el nombre del recurso de datos. Por ejemplo, el nombre de una tabla.
- FQN nombre completo de la entidad o columna de origen.
- Dirección: indica si el recurso de la lista está en la parte superior (origen) o inferior (destino) del flujo de linaje.
- Profundidad: número de pasos de linaje desde el recurso central que se está analizando.
Columnas disponibles en la vista de lista detallada a nivel de tabla
- Sistema de origen: sistema en el que se encuentra el recurso de datos de origen. Por ejemplo, BigQuery.
- Proyecto de origen: el ID del proyecto que contiene el recurso de datos de origen. Google Cloud
- Fuente: el nombre del recurso de datos de origen. Por ejemplo, el nombre de una tabla.
- FQN de origen: el FQN de la entidad de origen.
- Sistema de destino: sistema en el que se encuentra el recurso de datos de destino. Por ejemplo, BigQuery.
- Proyecto de destino: el ID del proyecto que contiene el recurso de datos de destino. Google Cloud
- Target: el nombre del recurso de datos de destino. Por ejemplo, el nombre de una tabla.
- FQN de destino: el FQN de la entidad de destino.
- Dirección: indica si el recurso de la lista está en la parte superior (origen) o inferior (destino) del flujo de linaje.
- Profundidad: número de pasos de linaje desde el recurso central que se está analizando.
Vista de lista del linaje a nivel de columna
En esta vista se muestran las relaciones entre las columnas de las tablas de origen y de destino. Usa los filtros proporcionados para seleccionar las columnas que necesites.

Amplía las siguientes secciones para ver las columnas disponibles en las vistas de lista a nivel de columna.
Columnas disponibles en la vista de lista simplificada a nivel de columna
- Sistema: el sistema en el que se encuentra el recurso de datos. Por ejemplo, BigQuery.
- Proyecto: el Google Cloud ID de proyecto que contiene el recurso de datos.
- Entidad: el nombre del recurso de datos. Por ejemplo, el nombre de una tabla.
- Columna: la columna específica elegida en el panel Explorador de linaje de la entidad.
- FQN nombre completo de la entidad o columna de origen original.
- Dirección: indica si el recurso de la lista está en la parte superior (origen) o inferior (destino) del flujo de linaje.
- Profundidad: número de pasos de linaje desde el recurso central que se está analizando.
Columnas disponibles en la vista de lista detallada a nivel de columna
- Sistema de origen: sistema en el que se encuentra el recurso de datos de origen.
- Proyecto de origen: el ID del proyecto que contiene el recurso de datos de origen. Google Cloud
- FQN de origen: el FQN de la columna de origen.
- Sistema de destino: sistema en el que se encuentra el recurso de datos de destino.
- Proyecto de destino: el ID del proyecto que contiene el recurso de datos de destino. Google Cloud
- FQN de destino: el FQN de la columna de destino.
- Dirección: indica si el flujo de datos es ascendente o descendente.
- Tipos de dependencia: describe la naturaleza de la relación entre las columnas.
- Profundidad: número de pasos de linaje desde el recurso central que se está analizando.
Siguientes pasos
Consulta información sobre las fuentes de linaje.
Consulta cómo hacer un seguimiento del linaje de datos de una copia de tabla de BigQuery y de trabajos de consulta.
Consulta cómo usar el linaje de datos con sistemas Google Cloud .