Explora el linaje de datos con metadatos


En este instructivo, se muestra cómo usar Cloud Data Fusion para explorar el linaje de datos: sus orígenes y sus movimientos en el tiempo.

Para obtener información sobre la integración del linaje de recursos de Data Catalog, consulta Ver linaje en Dataplex.

Linaje de datos de Cloud Data Fusion

Puedes usar el linaje de datos de Cloud Data Fusion para hacer lo siguiente:

  • Detecta la causa raíz de los eventos de datos incorrectos.

  • Realiza un análisis del impacto antes de realizar cambios en los datos.

Cloud Data Fusion proporciona linaje a nivel del conjunto de datos y de los campos, y tiene un límite de tiempo para mostrar el linaje a lo largo del tiempo.

  • El linaje de nivel de conjunto de datos muestra la relación entre los conjuntos de datos y las canalizaciones en un intervalo de tiempo seleccionado.

  • El linaje a nivel de campo muestra las operaciones que se realizaron en un conjunto de campos en el conjunto de datos de origen para producir un conjunto diferente de campos en el conjunto de datos de destino.

Situación del instructivo

En este instructivo, trabajarás con dos canalizaciones:

  • La canalización Shipment Data Cleansing lee los datos de envío sin procesar de un conjunto de datos de muestra pequeño y aplica transformaciones para limpiar los datos.

  • Luego, la canalización Delayed Shipments USA lee los datos de envío limpios, los analiza y encuentra los envíos dentro de EE.UU. que se retrasaron por más de un límite.

Estas canalizaciones de instructivos demuestran una situación típica en la que los datos sin procesar se limpian y, luego, se envían para el procesamiento posterior. Esta ruta de datos, desde datos sin procesar hasta datos de envío limpios a resultados analíticos, se puede explorar con la característica de linaje de Cloud Data Fusion.

Objetivos

  • Produce linaje mediante la ejecución de canalizaciones de muestra
  • Explorar linaje de nivel de conjunto de datos y campo
  • Aprender a pasar información de protocolo de enlace de la canalización ascendente a la canalización descendente.

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios. Es posible que los usuarios nuevos de Google Cloud califiquen para obtener una prueba gratuita.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  5. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  6. Habilita las API de Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery.

    Habilita las API

  7. Crea una instancia de Cloud Data Fusion.
  8. Haz clic en los siguientes vínculos para descargar estos pequeños conjuntos de datos de muestra en tu máquina local:

Abre la IU de Cloud Data Fusion

Cuando usas Cloud Data Fusion, debes usar la consola de Google Cloud y la IU independiente de Cloud Data Fusion. En la consola de Google Cloud, puedes crear un proyecto de la consola de Google Cloud, y crear y borrar instancias de Cloud Data Fusion. En la IU de Cloud Data Fusion, puedes usar las distintas páginas, como Lineage, para acceder a las características de Cloud Data Fusion.

  1. En la consola de Google Cloud, abre la página Instancias.

    Abrir la página de instancias

  2. En la columna Acciones de la instancia, haz clic en el vínculo Ver instancia. La IU de Cloud Data Fusion se abrirá en una pestaña nueva del navegador.

  3. En el panel Integrate, haz clic en Studio para abrir la página Studio de Cloud Data Fusion.

Implementa y ejecuta canalizaciones

  1. Importa los datos de envío sin procesar. En la página Studio, haz clic en Importar o en + > Canalización > Importar y, luego, selecciona e importa la canalización de limpieza de datos de envío que descargaste en Antes de comenzar.

  2. Implementa la canalización. Haz clic en Implementar en la parte superior derecha de la página Studio. Después de la implementación, se abrirá la página de Canalización.

  3. Ejecutar la canalización. Haga clic en Ejecutar en la parte superior central de la página Canalización.

  4. Importa, implementa y ejecuta los datos y la canalización de envíos retrasados. Una vez que el estado de la limpieza de datos de envío sea Sin errores, aplica los pasos anteriores a los datos de envíos retrasados de EE.UU. que descargaste en Antes de comenzar. Regresa a la página de Studio para importar los datos y, luego, implementa y ejecuta esta segunda canalización desde la página Canalización. Cuando la segunda canalización se complete con éxito, continúa con los pasos restantes.

Descubre conjuntos de datos

Debes descubrir un conjunto de datos antes de explorar su linaje. Selecciona Metadatos del panel de navegación izquierdo de la IU de Cloud Data Fusion para abrir la página de Búsqueda de metadatos. Dado que el conjunto de datos de limpieza de datos de envío especificó Cleaned-Shipments como el conjunto de datos de referencia, inserta shipment en el cuadro de búsqueda. Los resultados de la búsqueda incluyen este conjunto de datos.

Usa etiquetas para descubrir conjuntos de datos

Una búsqueda de metadatos descubre conjuntos de datos que se usaron, procesaron o generaron mediante las canalizaciones de Cloud Data Fusion. Las canalizaciones se ejecutan en un framework estructurado que genera y recopila metadatos técnicos y operativos. Los metadatos técnicos incluyen el nombre del conjunto de datos, el tipo, el esquema, los campos, la fecha de creación y la información de procesamiento. La información técnica y el linaje de los metadatos de Cloud Data Fusion usan esta información técnica.

Cloud Data Fusion también admite la anotación de conjuntos de datos con metadatos empresariales, como etiquetas y propiedades de clave-valor, que se pueden usar como criterios de búsqueda. Por ejemplo, para agregar y buscar una anotación de etiqueta de la empresa en el conjunto de datos de envío sin procesar, haz lo siguiente:

  1. Haz clic en el botón Propiedades del nodo de datos de envío sin procesar en la página Canalización de limpieza de datos de envío para abrir la página Propiedades de Cloud Storage.

  2. Haz clic en Ver metadatos para abrir la página Buscar.

  3. En Etiquetas comerciales, haz clic en + y, luego, inserta el nombre de una etiqueta (se permiten los caracteres alfanuméricos y los guiones bajos) y presiona Intro.

Explora el linaje

Linaje a nivel de conjunto de datos

Haz clic en el nombre del conjunto de datos Cleaned-Shipments que aparece en la página de búsqueda (en Descubrir conjuntos de datos) y, luego, en la pestaña Linaje. El grafo de linaje muestra que este conjunto de datos lo generó la canalización Shipments-Data-Cleansing, que había consumido el conjunto de datos Raw_Shipping_Data.

Las flechas hacia la izquierda y hacia la derecha te permiten navegar hacia atrás y hacia adelante por cualquier linaje de conjuntos de datos anterior o posterior. En este ejemplo, el grafo muestra el linaje completo para el conjunto de datos Cleaned-Shipments.

Linaje a nivel del campo

El linaje de nivel de campo de Cloud Data Fusion muestra la relación entre los campos de un conjunto de datos y las transformaciones que se realizaron en un conjunto de campos para producir un conjunto de campos diferente. Al igual que el linaje de nivel de conjunto de datos, el linaje a nivel de campo está restringido, y sus resultados cambian con el tiempo.

Para continuar con el paso linaje a nivel de conjunto de datos, haz clic en el botón de Linaje a nivel de campo en la parte superior derecha del grafo de linaje a nivel de conjunto de datos limpios de envío para mostrar su grafo de linaje de nivel de campo.

El grafo de linaje a nivel de campo muestra las conexiones entre campos. Puedes seleccionar un campo para ver su linaje. Selecciona Ver > Fijar campo para ver solo el linaje de ese campo.

Seleccione Ver > Ver impacto para realizar un análisis de impacto.

Los vínculos de impacto y causa muestran las transformaciones que se realizan en ambos lados de un campo en un formato de registro legible. Esta información puede ser fundamental para la generación de informes y la administración.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Una vez que completaste el instructivo, limpia los recursos que creaste en Google Cloud para evitar que se te facture por ellos en el futuro. En las siguientes secciones, se describe cómo borrar o desactivar estos recursos.

Borra el conjunto de datos del instructivo

En este instructivo, se crea un conjunto de datos logistics_demo con varias tablas en el proyecto.

Puedes borrar el conjunto de datos desde la IU web de BigQuery en la consola de Google Cloud.

Borra la instancia de Cloud Data Fusion

Sigue las instrucciones para borrar tu instancia de Cloud Data Fusion.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?