Se usó la API de Cloud Translation para traducir esta página.
Switch to English

Explorar linaje de datos

En este instructivo, se muestra cómo usar Cloud Data Fusion para explorar el linaje de datos: los orígenes de los datos y los movimientos en el tiempo.

Linaje de datos de Cloud Data Fusion

El linaje de datos de Cloud Data Fusion te ayuda a lograr lo siguiente:

  • Detectar la causa raíz de eventos de datos incorrectos
  • Realizar un análisis de impacto antes de realizar cambios en los datos

Cloud Data Fusion proporciona linaje a nivel del conjunto de datos y de los campos, y tiene un límite de tiempo para mostrar el linaje a lo largo del tiempo.

  • El linaje de nivel de conjunto de datos muestra la relación entre los conjuntos de datos y las canalizaciones en un intervalo de tiempo seleccionado.

  • El linaje a nivel de campo muestra las operaciones que se realizaron en un conjunto de campos en el conjunto de datos de origen para producir un conjunto diferente de campos en el conjunto de datos de destino.

Situación del instructivo

En este instructivo, trabajarás con dos canalizaciones:

  • La canalización Shipment Data Cleansing lee los datos de envío sin procesar de un conjunto de datos de muestra pequeño y aplica transformaciones para limpiar los datos.

  • Luego, la canalización Delayed Shipments USA lee los datos de envío limpios, los analiza y encuentra los envíos dentro de EE.UU. que se retrasaron por más de un límite.

Estas canalizaciones de instructivos demuestran una situación típica en la que los datos sin procesar se limpian y, luego, se envían para el procesamiento posterior. Esta ruta de datos, desde datos sin procesar hasta datos de envío limpios a resultados analíticos, se puede explorar con la característica de linaje de Cloud Data Fusion.

Objetivos

  • Ejecutar canalizaciones de muestra para producir linaje
  • Explorar linaje de nivel de conjunto de datos y campo
  • Aprender a pasar información de protocolo de enlace de la canalización ascendente a la canalización descendente.

Costos

En este instructivo, se usan los siguientes componentes facturables de Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Usa la calculadora de precios para generar una estimación de los costos según el uso previsto. Los usuarios nuevos de Google Cloud pueden ser elegibles para obtener una prueba gratuita.

Antes de comenzar

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir a la página del selector de proyectos

  3. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  4. Habilita las API de Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery.

    Habilita las API

  5. Crea una instancia de Enterprise Edition de Cloud Data Fusion.
  6. Haz clic en los vínculos siguientes para descargar estos pequeños conjuntos de datos de muestra a tu máquina local:

Abre la IU de Cloud Data Fusion

Cuando usas Cloud Data Fusion, usas Cloud Console y la IU de Cloud Data Fusion, que está separada. En Cloud Console, puedes crear un proyecto de Cloud Console, crear y borrar instancias de Cloud Data Fusion. En la IU de Cloud Data Fusion, puedes usar las distintas páginas, como Lineage, para acceder a las características de Cloud Data Fusion.

  1. En Cloud Console, abre la página Instancias.

    Abrir la página de instancias

  2. En la columna Acciones de la instancia, haz clic en el vínculo Ver instancia. La IU de Cloud Data Fusion se abrirá en una pestaña nueva del navegador.

  3. Haz clic en Studio en el panel Integrar (Integrate) o en el panel de navegación izquierdo para abrir la página Studio de Cloud Data Fusion.

Implementa y ejecuta canalizaciones

  1. Importa los datos de envío sin procesar. Haz clic en Importar (Import) en la parte superior derecha de la página de Studio (o haz clic en +→Pipeline→Import) y, luego, selecciona e importa la canalización de limpieza de datos de envío que descargaste en Antes de comenzar.

  2. Implementa la canalización. Haz clic en Implementar en la parte superior derecha de la página Studio. Después de la implementación, se abrirá la página de Canalización.

  3. Ejecutar la canalización. Haga clic en Ejecutar en la parte superior central de la página Canalización.

  4. Importa, implementa y ejecuta los datos y la canalización de envíos retrasados. Después de que el estado de Limpieza de datos de envío muestre el estado “Correcto”, aplica los pasos anteriores para los datos de envíos retrasados de EE.UU. que descargaste en Antes de comenzar. Regresa a la página Studio para importar los datos y, luego, implementa y ejecuta esta segunda canalización desde la página Canalización. Después de que esta segunda canalización se complete de forma correcta, puedes seguir los pasos restantes, a continuación.

Descubre conjuntos de datos

Debes descubrir un conjunto de datos antes de explorar su linaje. Selecciona Metadatos del panel de navegación izquierdo de la IU de Cloud Data Fusion para abrir la página de Búsqueda de metadatos. Dado que el conjunto de datos de limpieza de datos de envío especificó “Cleaned-Shipments” como el conjunto de datos de referencia, inserta “envío” en cuadro de búsqueda. Los resultados de la búsqueda incluyen este conjunto de datos.

Usa etiquetas para descubrir conjuntos de datos

Una búsqueda de metadatos descubre conjuntos de datos que se usaron, procesaron o generaron mediante las canalizaciones de Cloud Data Fusion. Las canalizaciones se ejecutan en un framework estructurado que genera y recopila metadatos técnicos y operativos. Los metadatos técnicos incluyen el nombre del conjunto de datos, el tipo, el esquema, los campos, la fecha de creación y la información de procesamiento. La información técnica y el linaje de los metadatos de Cloud Data Fusion usan esta información técnica.

Cloud Data Fusion también admite la anotación de conjuntos de datos con metadatos empresariales, como etiquetas y propiedades de clave-valor, que se pueden usar como criterios de búsqueda. Por ejemplo, para agregar y buscar una anotación de etiqueta de la empresa en el conjunto de datos de envío sin procesar, haz lo siguiente:

  1. Haz clic en el botón Propiedades del nodo de datos de envío sin procesar en la página Canalización de limpieza de datos de envío para abrir la página Propiedades de Cloud Storage.

  2. Haz clic en Ver metadatos para abrir la página Buscar.

  3. En Etiquetas comerciales, haz clic en + y, luego, inserta el nombre de una etiqueta (se permiten los caracteres alfanuméricos y los guiones bajos) y presiona Intro.

Explora el linaje

Linaje a nivel de conjunto de datos

Haz clic en el nombre del conjunto de datos Cleaned-Shipships que aparece en la página de búsqueda (de Descubre conjuntos de datos) y, a continuación, haz clic en la pestaña Lineage. El grafo de linaje muestra que este conjunto de datos lo generó la canalización Shipments-Data-Cleansing, que había consumido el conjunto de datos Raw_Shipping_Data.

Las flechas hacia la izquierda y hacia la derecha te permiten navegar hacia atrás y hacia delante en cualquier linaje anterior o posterior del conjunto de datos. En este ejemplo, el grafo muestra el linaje completo para el conjunto de datos Cleaned-Shipments.

Linaje a nivel del campo

El linaje de nivel de campo de Cloud Data Fusion muestra la relación entre los campos de un conjunto de datos y las transformaciones que se realizaron en un conjunto de campos para producir un conjunto de campos diferente. Al igual que el linaje de nivel de conjunto de datos, el linaje a nivel de campo está restringido, y sus resultados cambian con el tiempo.

Para continuar con el paso linaje a nivel de conjunto de datos, haz clic en el botón de Linaje a nivel de campo en la parte superior derecha del grafo de linaje a nivel de conjunto de datos limpios de envío para mostrar su grafo de linaje de nivel de campo.

El grafo de linaje a nivel de campo muestra las conexiones entre campos. Puedes seleccionar un campo para ver su linaje. Selecciona Ver→Fijar campo para ver solo el linaje de ese campo.

Seleccione Ver→Ver impacto para realizar un análisis de impacto.

Los vínculos de impacto y causa muestran las transformaciones que se realizan en ambos lados de un campo en un formato de registro legible. Esta información puede ser fundamental para la generación de informes y la administración.

Realice una limpieza

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Una vez que completaste el instructivo, limpia los recursos que creaste en Google Cloud para evitar que se te facture por ellos en el futuro. En las siguientes secciones, se describe cómo borrar o desactivar estos recursos.

Borra el conjunto de datos del instructivo

En este instructivo, se crea un conjunto de datos logistics_demo con varias tablas en el proyecto.

Puedes borrar el conjunto de datos de la IU web de BigQuery en Cloud Console.

Borra la instancia de Cloud Data Fusion

Sigue las instrucciones para borrar tu instancia de Cloud Data Fusion.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. En Cloud Console, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?