Realiza un seguimiento del linaje de datos de una tabla de BigQuery

Linaje de datos te permite hacer un seguimiento de cómo se mueven los datos a través de tus sistemas: de dónde provienen, de dónde a la que se pasa y qué transformaciones se le aplican.

Descubre cómo comenzar a usar el seguimiento del linaje de datos para Trabajos de copia y consulta de BigQuery:

  1. Copia dos tablas de un conjunto de datos new_york_taxi_trips disponible públicamente.

  2. Combina la cantidad total de viajes en taxi de ambas tablas en una tabla nueva.

  3. Mira un gráfico de visualización del linaje para las tres operaciones.

Antes de comenzar

Configura tu proyecto:

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. Habilita las API de Data Catalog, BigQuery, and data lineage.

    Habilita las API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  7. Habilita las API de Data Catalog, BigQuery, and data lineage.

    Habilita las API

Roles obligatorios

Para obtener los permisos que necesitas para ver los gráficos de visualización de linaje, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Si quieres obtener más información para otorgar roles, consulta Administra el acceso.

También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.

Agrega un conjunto de datos públicos a tu proyecto

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, haz clic en Agregar.

  3. En el panel Add, busca Public datasets y selecciona Resultado de conjuntos de datos públicos.

  4. En el panel de Marketplace, busca NYC TLC Trips y haz clic en Resultado de viajes de NYC TLC.

  5. Haz clic en Ver conjunto de datos.

En este paso, se agregará el conjunto de datos new_york_taxi_trips a tu proyecto. Los detalles En el panel, se muestra la Información del conjunto de datos, incluida la siguiente información: ID del conjunto de datos, Ubicación de los datos y Última modificación.

Crea un conjunto de datos en tu proyecto

  1. En el panel Explorador, selecciona el proyecto en el que quieres crear la carpeta. de tu conjunto de datos.

  2. Haz clic en el ícono Acciones y, luego, en Crear. conjunto de datos.

  3. En la página Crear conjunto de datos, en el campo ID del conjunto de datos, ingresa lo siguiente: data_lineage_demo. Deje los otros campos con sus valores predeterminados.

  4. Haz clic en Crear conjunto de datos.

  5. En el panel Explorador, haz clic en el elemento data_lineage_demo que se agregó recientemente.

En el panel de detalles, se muestra la Información del conjunto de datos.

Copia dos tablas de acceso público en tu conjunto de datos

  1. Abre un editor de consultas: en el panel de detalles, junto a la pestaña llamada data_lineage_demo, haz clic en (Redactar consulta nueva). En este paso, se crea una pestaña llamada Untitled.

  2. En el editor de consultas, copia la primera tabla ingresando el siguiente para cada búsqueda. Reemplaza PROJECT_ID por el ID de tu proyecto identificador.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Haz clic en Ejecutar. Este paso crea la primera tabla, llamada nyc_green_trips_2021.

  4. En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso se muestra el contenido de la primera tabla.

  5. En el editor de consultas, copia la segunda tabla reemplazando la anterior. con la siguiente consulta. Reemplaza PROJECT_ID por tu del proyecto identificador.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Haz clic en Ejecutar. Este paso crea la segunda tabla, llamada nyc_green_trips_2022.

  7. En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso se muestra el contenido de la segunda tabla.

Agrega datos en una tabla nueva

  1. En el editor de consultas, ingresa la siguiente consulta. Reemplazar PROJECT_ID por la lista de reproducción de tu proyecto identificador.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Haz clic en Ejecutar. Este paso crea una tabla combinada llamada total_green_trips_22_21.

  3. En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso se muestra la tabla combinada.

Visualiza el gráfico de linaje en Dataplex

  1. Abre la página Búsqueda de Dataplex.

    Abrir la búsqueda de Dataplex

  2. En Elegir plataforma de búsqueda, selecciona Data Catalog como modo de búsqueda.

  3. En el cuadro de búsqueda, ingresa total_green_trips_22_21 y haz clic en Buscar.

  4. En la lista de resultados, haz clic en total_green_trips_22_21. En este paso se muestra la pestaña Detalles de la tabla de BigQuery.

  5. Haz clic en la pestaña Linaje.

Captura de pantalla de la tabla total_green_trips_22_21 con el panel de detalles anclado en la parte inferior.
Figura 1: Linaje de datos con detalles de nodo

En el gráfico de linaje, cada nodo rectangular representa una tabla, ya sea una original, copiada o combinada. Puedes realizar lo siguiente:

  • Oculta o muestra el origen de una tabla con un clic en + (Expandir) o -. (Contraer).

  • Mostrar información de la tabla haciendo clic en un nodo En este paso, se muestra un nodo Panel Details.

  • Para mostrar la información del proceso, haz clic en un ícono del proceso de linaje ícono de proceso. En este paso, se muestra el panel Details del proceso en el que se muestra el trabajo que transformó una tabla de origen en una tabla de destino.

Captura de pantalla de la tabla intermediaria nyc_green_trips_2021 con el panel de detalles anclado en la parte inferior.
Figura 2: Linaje de datos con detalles del proceso

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

Borra el conjunto de datos

  1. Dirígete a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, busca el conjunto de datos data_lineage_demo que crear.

  3. Haz clic con el botón derecho en el conjunto de datos y selecciona Borrar.

  4. Confirma la acción de borrar.

¿Qué sigue?