Realiza un seguimiento del linaje de datos de una tabla de BigQuery

El linaje de datos te permite hacer un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se aplican a ellos.

Obtén información para comenzar a hacer un seguimiento del linaje de datos de los trabajos de copia y consulta de BigQuery:

  1. Copia dos tablas de un conjunto de datos new_york_taxi_trips disponible públicamente.

  2. Combina la cantidad total de viajes en taxi de ambas tablas en una tabla nueva.

  3. Consulta un gráfico de visualización de linaje para las tres operaciones.

Antes de comenzar

Configura tu proyecto:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

Roles obligatorios

Para obtener los permisos que necesitas para ver los gráficos de visualización de linaje, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.

Agrega un conjunto de datos públicos a tu proyecto

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, haz clic en Agregar.

  3. En el panel Agregar, busca Public datasets y selecciona el resultado Conjuntos de datos públicos.

  4. En el panel Marketplace, busca NYC TLC Trips y haz clic en el resultado Viajes en NYC TLC.

  5. Haz clic en Ver conjunto de datos.

Esto agrega el proyecto del conjunto de datos públicos como una referencia que puedes ver en el panel Explorador. En el panel de detalles, se muestra la información del conjunto de datos, como el ID del conjunto de datos, la ubicación de los datos y la fecha de última modificación.

Crea un conjunto de datos en tu proyecto

  1. En el panel Explorador, selecciona el proyecto en el que deseas crear el conjunto de datos.

  2. Haz clic en Acciones y, luego, en Crear conjunto de datos.

  3. En la página Crear conjunto de datos, en el campo ID del conjunto de datos, ingresa data_lineage_demo. Deje los otros campos con sus valores predeterminados.

  4. Haz clic en Crear conjunto de datos.

  5. En el panel Explorador, haz clic en el data_lineage_demo que acabas de agregar.

En el panel de detalles, se muestra la Información del conjunto de datos.

Copia dos tablas de acceso público en tu conjunto de datos

  1. Abre un editor de consultas: En el panel de detalles, junto a la pestaña llamada data_lineage_demo, haz clic en (Redactar consulta nueva). Este paso crea una pestaña llamada Untitled.

  2. En el editor de consultas, ingresa la siguiente consulta para copiar la primera tabla: Reemplaza PROJECT_ID por el identificador de tu proyecto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Haz clic en Ejecutar. Con este paso, se crea la primera tabla, llamada nyc_green_trips_2021.

  4. En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso, se muestra el contenido de la primera tabla.

  5. En el editor de consultas, copia la segunda tabla reemplazando la consulta anterior con la siguiente: Reemplaza PROJECT_ID por el identificador de tu proyecto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Haz clic en Ejecutar. Con este paso, se crea la segunda tabla, llamada nyc_green_trips_2022.

  7. En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso, se muestra el contenido de la segunda tabla.

Agrupa datos en una tabla nueva

  1. En el editor de consultas, ingresa la siguiente consulta. Reemplaza PROJECT_ID por el identificador de tu proyecto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Haz clic en Ejecutar. Con este paso, se crea una tabla combinada, llamada total_green_trips_22_21.

  3. En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso, se muestra la tabla combinada.

Consulta el gráfico de linaje en Dataplex

  1. En la consola de Google Cloud, ve a la página Búsqueda de Dataplex.

    Ir a Búsqueda de Dataplex

  2. En Elige una plataforma de búsqueda, selecciona Data Catalog como el modo de búsqueda.

  3. En el cuadro Buscar, ingresa total_green_trips_22_21 y haz clic en Buscar.

  4. En la lista de resultados, haz clic en total_green_trips_22_21. En este paso, se muestra la pestaña Detalles de la tabla de BigQuery.

  5. Haz clic en la pestaña Linaje.

La tabla total_green_trips_22_21 con el panel de detalles acoplado en la parte inferior.
Figura 1: Linaje de datos con detalles del nodo

En el gráfico de linaje, cada nodo rectangular representa una tabla, ya sea una tabla original, copiada o combinada. Puedes realizar lo siguiente:

  • Para ocultar o mostrar el origen de una tabla, haz clic en + (Expandir) o - (Contraer).

  • Para mostrar la información de la tabla, haz clic en un nodo. En este paso, se muestra un panel Detalles del nodo.

  • Para mostrar la información del proceso, haz clic en ver los detalles del proceso de linaje. En este paso, se muestra un panel de proceso Detalles que muestra el trabajo que transformó una tabla de origen en una tabla de destino.

La tabla intermedia nyc_green_trips_2021 con el panel de detalles acoplado en la parte inferior.
Figura 2: Linaje de datos con detalles del proceso

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Borra el conjunto de datos

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, busca el conjunto de datos data_lineage_demo que creaste.

  3. Haz clic con el botón derecho en el conjunto de datos y selecciona Borrar.

  4. Confirma la acción de eliminación.

¿Qué sigue?