Explora el linaje de datos con metadatos


En este instructivo, se muestra cómo usar Cloud Data Fusion para explorar el linaje de datos: los orígenes de los datos y los movimientos en el tiempo.

Linaje de datos de Cloud Data Fusion

Puedes usar el linaje de datos de Cloud Data Fusion para hacer lo siguiente:

  • Detecta la causa raíz de los eventos de datos incorrectos.

  • Realiza un análisis de impacto antes de realizar cambios en los datos.

Recomendamos usar la integración del linaje de recursos en Dataplex. Para obtener más información, consulta Consultar el linaje en Dataplex.

También puedes ver el linaje a nivel del conjunto de datos y del campo en Studio de Cloud Data Fusion con la opción Metadatos, que muestra el linaje de un período seleccionado.

  • El linaje a nivel del conjunto de datos muestra la relación entre los conjuntos de datos y las canalizaciones.

  • El linaje a nivel de campo muestra las operaciones que se realizaron en un conjunto de campos en el conjunto de datos de origen para producir un conjunto diferente de campos en el conjunto de datos de destino.

A partir de la versión 6.9.2.4 de Cloud Data Fusion, si no realizas un seguimiento del linaje en Cloud Data Fusion, te recomendamos que desactives la emisión de linaje a nivel del campo en tu instancia con el método patch:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer
$(gcloud auth print-access-token)"
'https://datafusion.googleapis.com/v1beta1/projects/PROJECT_ID/locations/REGION/instances/INSTANCE_ID?updateMask=options'
-d '{ "options": { "metadata.messaging.field.lineage.emission.enabled": "false" } }'

Reemplaza lo siguiente:

  • PROJECT_ID: El ID del proyecto de Google Cloud
  • REGION: Es la ubicación del proyecto de Google Cloud.
  • INSTANCE_ID: El ID de instancia de Cloud Data Fusion.

Situación del instructivo

En este instructivo, trabajarás con dos canalizaciones:

  • La canalización Shipment Data Cleansing lee los datos de envío sin procesar de un conjunto de datos de muestra pequeño y aplica transformaciones para limpiar los datos.

  • Luego, la canalización Delayed Shipments USA lee los datos de envío limpios, los analiza y encuentra los envíos dentro de EE.UU. que se retrasaron por más de un límite.

Estas canalizaciones de instructivos demuestran una situación típica en la que los datos sin procesar se limpian y, luego, se envían para el procesamiento posterior. Esta ruta de datos, desde datos sin procesar hasta datos de envío limpios a resultados analíticos, se puede explorar con la característica de linaje de Cloud Data Fusion.

Objetivos

  • Ejecuta canalizaciones de muestra para producir linaje
  • Explorar linaje de nivel de conjunto de datos y campo
  • Aprende a pasar información de enlace de la canalización ascendente al canalización descendente

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios. Es posible que los usuarios nuevos de Google Cloud califiquen para obtener una prueba gratuita.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  6. Enable the Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery APIs.

    Enable the APIs

  7. Crea una instancia de Cloud Data Fusion.
  8. Haz clic en los vínculos siguientes para descargar estos pequeños conjuntos de datos de muestra a tu máquina local:

Abre la IU de Cloud Data Fusion

Cuando usas Cloud Data Fusion, usas la consola de Google Cloud y la IU independiente de Cloud Data Fusion. En la consola de Google Cloud, puedes crear un proyecto de la consola de Google Cloud, crear y borrar instancias de Cloud Data Fusion. En la IU de Cloud Data Fusion, puedes usar las distintas páginas, como Lineage, para acceder a las características de Cloud Data Fusion.

  1. En la consola de Google Cloud, abre la página Instancias.

    Abrir la página de instancias

  2. En la columna Acciones de la instancia, haz clic en el vínculo Ver instancia. La IU de Cloud Data Fusion se abrirá en una pestaña nueva del navegador.

  3. En el panel Integrar, haz clic en Studio para abrir la página Studio de Cloud Data Fusion.

Implementa y ejecuta canalizaciones

  1. Importa los datos de envío sin procesar. En la página Studio, haz clic en Importar o en + > Canalización > Importar y, luego, selecciona e importa la canalización de limpieza de datos de envío que descargaste en Antes de comenzar.

  2. Implementa la canalización. Haz clic en Implementar en la parte superior derecha de la página Studio. Después de la implementación, se abrirá la página de Canalización.

  3. Ejecutar la canalización. Haga clic en Ejecutar en la parte superior central de la página Canalización.

  4. Importa, implementa y ejecuta los datos y la canalización de envíos retrasados. Después de que el estado de Limpieza de datos de envío muestre Correcto, aplica los pasos anteriores para los datos de envíos retrasados de EE.UU. que descargaste en Antes de comenzar. Regresa a la página Studio para importar los datos y, luego, implementa y ejecuta esta segunda canalización desde la página Canalización. Después de que la segunda canalización se complete correctamente, continúa con los pasos restantes.

Descubre conjuntos de datos

Debes descubrir un conjunto de datos antes de explorar su linaje. Selecciona Metadatos del panel de navegación izquierdo de la IU de Cloud Data Fusion para abrir la página de Búsqueda de metadatos. Dado que el conjunto de datos de limpieza de datos de envío especificó Cleaned-Shipments como conjunto de datos de referencia, inserta shipment en la barra de búsquedas . Los resultados de la búsqueda incluyen este conjunto de datos.

Usa etiquetas para descubrir conjuntos de datos

Una búsqueda de metadatos descubre conjuntos de datos que se usaron, procesaron o generaron mediante las canalizaciones de Cloud Data Fusion. Las canalizaciones se ejecutan en un framework estructurado que genera y recopila metadatos técnicos y operativos. Los metadatos técnicos incluyen el nombre del conjunto de datos, el tipo, el esquema, los campos, la fecha de creación y la información de procesamiento. La información técnica y el linaje de los metadatos de Cloud Data Fusion usan esta información técnica.

Cloud Data Fusion también admite la anotación de conjuntos de datos con metadatos empresariales, como etiquetas y propiedades de clave-valor, que se pueden usar como criterios de búsqueda. Por ejemplo, para agregar y buscar una anotación de etiqueta de la empresa en el conjunto de datos de envío sin procesar, haz lo siguiente:

  1. Haz clic en el botón Propiedades del nodo de datos de envío sin procesar en la página Canalización de limpieza de datos de envío para abrir la página Propiedades de Cloud Storage.

  2. Haz clic en Ver metadatos para abrir la página Buscar.

  3. En Etiquetas comerciales, haz clic en + y, luego, inserta el nombre de una etiqueta (se permiten los caracteres alfanuméricos y los guiones bajos) y presiona Intro.

Explora el linaje

Linaje a nivel de conjunto de datos

Haz clic en el nombre del conjunto de datos de envíos limpios que aparece en la página de búsqueda (desde Descubrir conjuntos de datos), luego haz clic en la pestaña Linaje. El grafo de linaje muestra que este conjunto de datos lo generó la canalización Shipments-Data-Cleansing, que había consumido el conjunto de datos Raw_Shipping_Data.

Las flechas izquierda y derecha te permiten navegar hacia atrás y hacia adelante cualquier linaje de conjunto de datos anterior o posterior. En este ejemplo, el grafo muestra el linaje completo para el conjunto de datos Cleaned-Shipments.

Linaje a nivel del campo

El linaje de nivel de campo de Cloud Data Fusion muestra la relación entre los campos de un conjunto de datos y las transformaciones que se realizaron en un conjunto de campos para producir un conjunto de campos diferente. Al igual que el linaje de nivel de conjunto de datos, el linaje a nivel de campo está restringido, y sus resultados cambian con el tiempo.

Para continuar con el paso linaje a nivel de conjunto de datos, haz clic en el botón de Linaje a nivel de campo en la parte superior derecha del grafo de linaje a nivel de conjunto de datos limpios de envío para mostrar su grafo de linaje de nivel de campo.

El grafo de linaje a nivel de campo muestra las conexiones entre campos. Puedes seleccionar un campo para ver su linaje. Selecciona Ver > Fijar campo para ver solo el linaje de ese campo.

Selecciona Ver > Ver impacto para realizar un análisis del impacto.

Los vínculos de impacto y causa muestran las transformaciones que se realizan en ambos lados de un campo en un formato de registro legible. Esta información puede ser fundamental para la generación de informes y la administración.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Una vez que completaste el instructivo, limpia los recursos que creaste en Google Cloud para evitar que se te facture por ellos en el futuro. En las siguientes secciones, se describe cómo borrar o desactivar estos recursos.

Borra el conjunto de datos del instructivo

En este instructivo, se crea un conjunto de datos logistics_demo con varias tablas en el proyecto.

Puedes borrar el conjunto de datos de la IU web de BigQuery en la consola de Google Cloud.

Borra la instancia de Cloud Data Fusion

Sigue las instrucciones para borrar tu instancia de Cloud Data Fusion.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?