Crea una canalización reutilizable


En este instructivo, se muestra cómo compilar una canalización reutilizable que lee datos desde Cloud Storage, realiza verificaciones de calidad de los datos y escribe en Cloud Storage.

Las canalizaciones reutilizables tienen una estructura de canalización normal, pero puedes cambiar la configuración de cada nodo de canalización según las configuraciones que proporciona un servidor HTTP. Por ejemplo, una canalización estática puede leer datos de Cloud Storage, aplicar transformaciones y escribir en una tabla de salida de BigQuery. Si deseas que la tabla de salida de BigQuery y la transformación cambien en función del archivo de Cloud Storage que lee la canalización, debes crear una canalización reutilizable.

Objetivos

  • Usa el complemento Argumento de Cloud Storage para permitir que la canalización lea diferentes entradas en cada ejecución.
  • Usa el complemento Argumento de Cloud Storage para permitir que la canalización realice diferentes verificaciones de calidad en cada ejecución.
  • Escribir los datos de salida de cada ejecución en Cloud Storage

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios. Es posible que los usuarios nuevos de Google Cloud califiquen para obtener una prueba gratuita.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  4. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  5. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  6. Habilita las API de Cloud Data Fusion, Cloud Storage, BigQuery, and Dataproc.

    Habilita las API

  7. Crea una instancia de Cloud Data Fusion.

Cuando usas Cloud Data Fusion, usas la consola de Google Cloud y la interfaz web independiente de Cloud Data Fusion. En la consola de Google Cloud, puedes crear un proyecto de la consola de Google Cloud, además de crear y borrar instancias de Cloud Data Fusion. En la interfaz web de Cloud Data Fusion, puedes usar las distintas páginas, como Pipeline Studio o Wrangler, para usar las funciones de Cloud Data Fusion.

  1. En la consola de Google Cloud, abre la página Instancias.

    Abrir la página de instancias

  2. En la columna Acciones de la instancia, haz clic en el vínculo Ver instancia. Se abrirá la interfaz web de Cloud Data Fusion en una pestaña nueva del navegador.

Implementa el complemento Argumento de set de Cloud Storage

  1. En la interfaz web de Cloud Data Fusion, ve a la página Studio.

  2. En el menú Acciones, haz clic en GCS Argument Setter.

Lee desde Cloud Storage

  1. En la interfaz web de Cloud Data Fusion, ve a la página Studio.
  2. Haz clic en Fuente (Source) y selecciona Cloud Storage. El nodo de una fuente de Cloud Storage aparece en la canalización.
  3. En el nodo de Cloud Storage, haz clic en Propiedades.

  4. En el campo Nombre de referencia, ingresa un nombre.

  5. En el campo Ruta de acceso, ingresa ${input.path}. Esta macro controla cuál será la ruta de acceso de entrada de Cloud Storage en las diferentes ejecuciones de la canalización.

  6. En el panel Esquema de salida de la derecha, haz clic en el ícono de papelera en la fila del campo de desplazamiento para quitar el campo offset del esquema de salida.

  7. Haz clic en Validar y corrige los errores.

  8. Haz clic en para salir del diálogo Properties.

Transforma tus datos

  1. En la interfaz web de Cloud Data Fusion, ve a tu canalización de datos en la página Studio.
  2. En el menú desplegable Transform , selecciona Wrangler.
  3. En el lienzo de Pipeline Studio, arrastra una flecha desde el nodo de Cloud Storage al nodo Wrangler.
  4. Vaya al nodo Wrangler en su canalización y haga clic en Properties.
  5. En el Nombre del campo de entrada, ingresa body.
  6. En el campo Receta, ingresa ${directives}. Esta macro controla cuál será la lógica de transformación en las diferentes ejecuciones de canalizaciones.
  7. Haz clic en Validar y corrige los errores.
  8. Haz clic en para salir del diálogo Properties.

Escribir en Cloud Storage

  1. En la interfaz web de Cloud Data Fusion, ve a tu canalización de datos en la página Studio.
  2. En el menú desplegable Receptor , selecciona Cloud Storage.
  3. En el lienzo de Pipeline Studio, arrastra una flecha desde el nodo Wrangler al nodo de Cloud Storage que acabas de agregar.
  4. Ve al nodo receptor de Cloud Storage en tu canalización y haz clic en Propiedades.
  5. En el campo Nombre de referencia, ingresa un nombre.
  6. En el campo Ruta de acceso, ingresa la ruta de un depósito de Cloud Storage en tu proyecto, en el que tu canalización puede escribir los archivos de salida. Si no tienes un depósito de Cloud Storage, crea uno.
  7. Haz clic en Validar y corrige los errores.
  8. Haz clic en para salir del diálogo Properties.

Establece los argumentos de macro

  1. En la interfaz web de Cloud Data Fusion, ve a tu canalización de datos en la página Studio.
  2. En el menú desplegable Conditions and Actions, haz clic en GCS Argument Setter.
  3. En el lienzo de Pipeline Studio, arrastra una flecha desde el nodo método set de Argumentos de Cloud Storage al nodo fuente de Cloud Storage.
  4. Ve al nodo Método set de argumentos de Cloud Storage en tu canalización y haz clic en Propiedades.
  5. En el campo URL, ingresa la siguiente URL:

    gs://reusable-pipeline-tutorial/args.json
    

    La URL corresponde a un objeto de acceso público en Cloud Storage que incluye el siguiente contenido:

    {
      "arguments" : [
        {
          "name": "input.path",
          "value": "gs://reusable-pipeline-tutorial/user-emails.txt"
        },
        {
          "name": "directives",
          "value": "send-to-error !dq:isEmail(body)"
        }
      ]
    }
    

    El primero de los dos argumentos es el valor de input.path. La ruta de acceso gs://reusable-pipeline-tutorial/user-emails.txt es un objeto de acceso público en Cloud Storage que contiene los siguientes datos de prueba:

    alice@example.com
    bob@example.com
    craig@invalid@example.com
    

    El segundo argumento es el valor de directives. El valor send-to-error !dq:isEmail(body) configura Wrangler para filtrar cualquier línea que no sea una dirección de correo electrónico válida. Por ejemplo, se filtra craig@invalid@example.com.

  6. Haz clic en Validar para asegurarte de que no haya ningún error.

  7. Haz clic en para salir del diálogo Properties.

Implementa y ejecuta la canalización

  1. En la barra superior de la página de Pipeline Studio, haz clic en Asignar un nombre a la canalización. Asígnele un nombre a la canalización y haz clic en Guardar.

  2. Haz clic en Implementar.

  3. Para abrir Runtime Arguments y ver los argumentos de macro (entorno de ejecución) input.path y directives, haz clic en el menú desplegable junto a Run.

    Deja los campos de valor en blanco para notificar a Cloud Data Fusion que el nodo método set de los argumentos de Cloud Storage en la canalización establecerá los valores de estos argumentos durante el entorno de ejecución.

  4. Haz clic en Ejecutar.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Una vez que completaste el instructivo, limpia los recursos que creaste en Google Cloud para evitar que se te facture por ellos en el futuro. En las siguientes secciones, se describe cómo borrar o desactivar estos recursos.

Borra la instancia de Cloud Data Fusion

Sigue las instrucciones para borrar tu instancia de Cloud Data Fusion.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?