Realiza un seguimiento del linaje de datos de una tabla de BigQuery
El linaje de datos te permite hacer un seguimiento de cómo se mueven los datos a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se aplican.
Aprende a realizar el seguimiento del linaje de datos para los trabajos de copia y consulta de BigQuery:
Copia dos tablas de un conjunto de datos
new_york_taxi_trips
disponible públicamente.Combina la cantidad total de viajes en taxi de ambas tablas en una tabla nueva.
Consulta un gráfico de visualización de linaje para las tres operaciones.
Antes de comenzar
Configura tu proyecto:
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Habilita las API de Data Catalog, BigQuery, and data lineage.
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Habilita las API de Data Catalog, BigQuery, and data lineage.
Funciones obligatorias
Para obtener los permisos que necesitas para ver los gráficos de visualización de linaje, pídele a tu administrador que te otorgue los siguientes roles de IAM:
-
Visualizador de Data Catalog (
roles/datacatalog.viewer
) en el proyecto de recursos de Data Catalog -
Visualizador de linaje de datos (
roles/datalineage.viewer
) en el proyecto en el que usas BigQuery -
Visualizador de datos de BigQuery (
roles/bigquery.dataViewer
) en el proyecto en el que usas BigQuery
Si quieres obtener más información para otorgar funciones, consulta Administra el acceso.
Es posible que también puedas obtener los permisos necesarios mediante funciones personalizadas, o bien otras funciones predefinidas.
Agrega un conjunto de datos públicos a tu proyecto
En la consola de Google Cloud, ve a la página de BigQuery.
En el panel Explorador, haz clic en Agregar.
En el panel Agregar, busca
Public datasets
y selecciona el resultado Conjuntos de datos públicos.En el panel Marketplace, busca
NYC TLC Trips
y haz clic en el resultado NYC TLC trips.Haz clic en Ver conjunto de datos.
En este paso, agregarás el conjunto de datos new_york_taxi_trips a tu proyecto. En el panel de detalles, se muestra la Información del conjunto de datos, incluida información como el ID del conjunto de datos, Ubicación de los datos y la fecha de Última modificación.
Crea un conjunto de datos en tu proyecto
En el panel Explorador, selecciona el proyecto en el que deseas crear el conjunto de datos.
Haz clic en el ícono
Acciones y, luego, en Crear conjunto de datos.En la página Crear conjunto de datos, en el campo ID del conjunto de datos, ingresa:
data_lineage_demo
. Deja los otros campos con sus valores predeterminados.Haz clic en Crear conjunto de datos.
En el panel Explorador, haz clic en el
data_lineage_demo
agregado recientemente.
En el panel de detalles, se muestra la Información del conjunto de datos.
Copiar dos tablas de acceso público a tu conjunto de datos
Abre un editor de consultas: En el panel de detalles, junto a la pestaña llamada
data_lineage_demo
, haz clic en (Redactar consulta nueva). En este paso, se creará una pestaña llamadaUntitled
.En el editor de consultas, ingresa la siguiente consulta para copiar la primera tabla. Reemplaza
PROJECT_ID
por el identificador de tu proyecto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
Haz clic en
Ejecutar. En este paso, se crea la primera tabla, llamadanyc_green_trips_2021
.En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso, se muestra el contenido de la primera tabla.
En el editor de consultas, copia la segunda tabla y reemplaza la consulta anterior por la siguiente. Reemplaza
PROJECT_ID
por el identificador de tu proyecto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
Haz clic en
Ejecutar. En este paso, se crea la segunda tabla, llamadanyc_green_trips_2022
.En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso, se muestra el contenido de la segunda tabla.
Agrega datos en una tabla nueva
En el editor de consultas, ingresa la siguiente consulta. Reemplaza
PROJECT_ID
por el identificador de tu proyecto.CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
Haz clic en
Ejecutar. En este paso, se crea una tabla combinada llamadatotal_green_trips_22_21
.En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso, se muestra la tabla combinada.
Visualiza el gráfico de linaje en Dataplex
Abre la página de búsqueda de Dataplex.
En el cuadro Búsqueda, ingresa
total_green_trips_22_21
y haz clic en Buscar.En la lista de resultados, haz clic en
total_green_trips_22_21
. En este paso, se muestra la pestaña Detalles de la tabla de BigQuery.Haz clic en la pestaña Linaje.
En el gráfico de linaje, cada nodo rectangular representa una tabla, que puede ser original, copiada o combinada. Puedes realizar lo siguiente:
Para mostrar u ocultar el origen de una tabla, haz clic en + (Expandir) o - (Contraer).
Haz clic en un nodo para mostrar la información de la tabla. En este paso, se muestra el panel Detalles de un nodo.
Para mostrar la información del proceso, haz clic en un ícono de proceso . En este paso, se muestra el panel Detalles del proceso en el que se muestra el trabajo que transformó una tabla de origen en una tabla de destino.
Limpia
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que se usaron en esta página.
Borra el proyecto
La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.
Para borrar el proyecto, haz lo siguiente:
- En la consola de Google Cloud, ve a la página Administrar recursos.
- En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
- En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.
Borra el conjunto de datos
Dirígete a la página de BigQuery.
En el panel Explorador, busca el conjunto de datos
data_lineage_demo
que creaste.Haz clic con el botón derecho en el conjunto de datos y selecciona Borrar.
Confirma la acción de borrar.
¿Qué sigue?
- Obtén más información sobre Dataplex y el linaje de datos.
- Aprende a ejecutar consultas de BigQuery.
- Obtén información sobre cómo usar el linaje de datos y ver gráficos de linaje de datos.
- Obtén más información sobre los precios y la billing de Dataplex.