Explorar linaje de datos

En este instructivo, se muestra cómo usar Cloud Data Fusion para explorar el lineage de datos: el origen de los datos y su movimiento en el tiempo.

Linaje de datos de Cloud Data Fusion

El linaje de datos de Cloud Data Fusion te permite:

  • Detectar la causa raíz de los eventos de datos incorrectos
  • realizar un análisis de impacto antes de realizar cambios en los datos

Cloud Data Fusion proporciona linaje a nivel de conjunto de datos y de campo, y tiene un límite de tiempo para mostrar el linaje en el tiempo.

  • El linaje a nivel de conjunto de datos muestra la relación entre los conjuntos de datos y las canalizaciones en un intervalo de tiempo seleccionado.

  • El linaje a nivel de campo muestra las operaciones que se realizaron en un conjunto de campos en el conjunto de datos de origen para producir un conjunto diferente de campos en el conjunto de datos de destino.

Situación del instructivo

En este instructivo, trabajas con dos canalizaciones:

  • La canalización Shipment Data Cleansing lee los datos de envío sin procesar de un conjunto de datos de muestra pequeño y aplica transformaciones para limpiar los datos.

  • La canalización de Delayed Shipments USA lee los datos de envío limpiados, los analiza y encuentra envíos dentro de EE.UU. que se retrasaron más de un umbral.

Estas canalizaciones del instructivo demuestran una situación típica en la que los datos sin procesar se borran y se envían para el procesamiento posterior. Este recorrido de datos, desde datos sin procesar hasta datos de envío limpiados y salida analítica, se puede explorar con la función de linaje de Cloud Data Fusion.

Objetivos

  • Ejecuta canalizaciones de muestra para producir linaje
  • Explora el conjunto de datos y el linaje a nivel de campo
  • Aprende a pasar información de protocolo de enlace de la canalización ascendente a la canalización descendente

Costos

En este instructivo, se usan los siguientes componentes facturables de Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Usa la calculadora de precios para generar una estimación de los costos según el uso previsto. Los usuarios nuevos de Google Cloud pueden ser elegibles para obtener una prueba gratuita.

Antes de comenzar

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. En la página de selección de proyectos de Cloud Console, selecciona o crea un proyecto de Cloud.

    Ir a la página Selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud. Obtén información sobre cómo confirmar que tienes habilitada la facturación para tu proyecto.

  4. Habilita las API de Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery.

    Habilita las API

  5. Crea una instancia de Cloud Data Fusion Enterprise Edition.
  6. Haga clic en los siguientes vínculos para descargar estos pequeños conjuntos de datos en su máquina local:

Abre la IU de Cloud Data Fusion

Cuando usas Cloud Data Fusion, usas Cloud Console y la IU de Cloud Data Fusion por separado. En Cloud Console, puedes crear un proyecto de Cloud Console y crear y borrar instancias de Cloud Data Fusion. En la IU de Cloud Data Fusion, puedes usar las distintas páginas, como Lineage, para acceder a las funciones de Cloud Data Fusion.

  1. En Cloud Console, abre la página Instancias.

    Abrir la página de instancias

  2. En la columna Acciones de la instancia, haz clic en el vínculo Ver instancia. La IU de Cloud Data Fusion se abre en una nueva pestaña del navegador.

  3. Haz clic en Studio en el panel Integrar o en el panel de navegación izquierdo para abrir la página Studio de Cloud Data Fusion.

Implementar y ejecutar canalizaciones

  1. Importe los datos de envío sin procesar. Haz clic en Importar en la parte superior derecha de la página de Studio (o haz clic en + → Canalización → Importar) y, luego, selecciona e importa la canalización de limpieza de datos de envío que descargaste en Antes de comenzar. }.

  2. Implementa la canalización. Haz clic en Implementar en la parte superior derecha de la página de Studio. Después de la implementación, se abrirá la página Canalización.

  3. Ejecuta la canalización Haz clic en Ejecutar en la parte superior central de la página Canalización.

  4. Importa, implementa y ejecuta los datos y la canalización de Envíos demorados. Después de que el estado de la limpieza de datos de envío muestre "Correcto", aplica los pasos anteriores a los datos de Envíos demorados que descargaste en Antes de comenzar. Regrese a la página Studio para importar los datos y, luego, implemente y ejecute esta segunda canalización desde la página Canalización. Después de que esta segunda canalización se complete con éxito, puedes continuar con los pasos restantes, a continuación.

Descubre conjuntos de datos

Debes descubrir un conjunto de datos antes de explorar su linaje. Selecciona Metadatos en el panel de navegación izquierdo de la IU de Cloud Data Fusion para abrir la página de Búsqueda de metadatos. Debido a que el conjunto de datos de limpieza de datos de envío especificó "Envíos depurados" como el conjunto de datos de referencia, inserta "envío" en el cuadro de búsqueda. Los resultados de la búsqueda incluyen este conjunto de datos.

Usa etiquetas para descubrir conjuntos de datos

Una búsqueda de metadatos descubre conjuntos de datos que las canalizaciones de Cloud Data Fusion consumen, procesan o generan. Las canalizaciones se ejecutan en un marco de trabajo estructurado que genera y recopila metadatos técnicos y operativos. Los metadatos técnicos incluyen el nombre del conjunto de datos, el tipo, el esquema, los campos, la hora de creación y la información de procesamiento. Las funciones de búsqueda y linaje de metadatos de Cloud Data Fusion usan esta información técnica.

Cloud Data Fusion también admite la anotación de conjuntos de datos con metadatos empresariales, como etiquetas y propiedades clave-valor, que se pueden usar como criterios de búsqueda. Por ejemplo, para agregar y buscar una anotación de etiqueta de empresa en el conjunto de datos de envío sin procesar:

  1. Haga clic en el botón Propiedades del nodo Datos de envío sin procesar en la página Canalización de limpieza de datos de envío para abrir la página Propiedades de GCS.

  2. Haz clic en Ver metadatos para abrir la página Buscar.

  3. En Etiquetas de la empresa, haz clic en + luego inserta un nombre de etiqueta (se permiten caracteres alfanuméricos y guiones bajos) y presiona Intro.

Explorar linaje

Linaje a nivel de conjunto de datos

Haz clic en el nombre del conjunto de datos Limpiar envíos en la página de búsqueda (en Conjuntos de datos de Discover) y, luego, en la pestaña Linaje. El grafo de linaje muestra que este conjunto de datos se generó mediante la canalización de envío de datos, que consumió el conjunto de datos sin procesar.

Las flechas izquierda y derecha te permiten navegar hacia atrás y hacia adelante a través de cualquier linaje de conjuntos de datos anterior o posterior. En este ejemplo, el grafo muestra el linaje completo para el conjunto de datos de Envíos depurados.

Linaje a nivel del campo

El linaje a nivel de campo de Cloud Data Fusion muestra la relación entre los campos de un conjunto de datos y las transformaciones que se realizaron en un conjunto de campos para producir un conjunto diferente de campos. Al igual que el linaje a nivel de conjunto de datos, el linaje a nivel de campo está limitado por el tiempo y sus resultados cambian con el tiempo.

Para continuar con el paso de Lineage a nivel de conjunto de datos, haz clic en el botón Linaje a nivel de campo en la parte superior derecha del gráfico de linaje a nivel de conjunto de datos Limitados.

El gráfico de linaje a nivel de campo muestra conexiones entre campos. Puedes seleccionar un campo para ver su linaje. Selecciona Ver → Fijar campo para ver solo el linaje de ese campo.

Seleccione Ver → Ver impacto para realizar un análisis de impacto.

Los vínculos de causa e impacto muestran las transformaciones realizadas en ambos lados de un campo en un formato de registro legible. Esta información puede ser esencial para los informes y la administración.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud Platform por los recursos que usaste en este instructivo:

Una vez que hayas terminado el instructivo, limpia los recursos que creaste en Google Cloud para que no ocupen la cuota y no se te cobre por ellos en el futuro. En las secciones siguientes, se describe cómo borrar o desactivar estos recursos.

Borra el conjunto de datos del instructivo

En este instructivo, se crea un conjunto de datos logistics_demo con varias tablas en tu proyecto.

Puedes borrar el conjunto de datos de la IU web de BigQuery en Cloud Console.

Borra la instancia de Cloud Data Fusion

Sigue las instrucciones para borrar tu instancia de Cloud Data Fusion.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. En Cloud Console, ve a la página Administrar recursos.

    Ir a la página Administrar recursos

  2. En la lista de proyectos, selecciona el proyecto que deseas borrar y haz clic en Borrar .
  3. En el cuadro de diálogo, escribe el ID del proyecto y haz clic en Cerrar para borrar el proyecto.

Qué sigue