Crea una canalización reutilizable

En este instructivo, se muestra cómo compilar una canalización reutilizable que lee datos desde Cloud Storage, realiza verificaciones de calidad de los datos y escribe en Cloud Storage.

Objetivos

  • Usa el complemento de Argument Setter para permitir que la canalización lea diferentes entradas en cada ejecución.
  • Usa el complemento Organizador de argumentos para permitir que la canalización realice diferentes verificaciones de calidad en cada ejecución.
  • Escribir los datos de salida de cada ejecución en Cloud Storage

Costos

En este instructivo, se usan los siguientes componentes facturables de Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage

Usa la calculadora de precios para generar una estimación de los costos según el uso previsto. Los usuarios nuevos de Google Cloud pueden ser elegibles para obtener una prueba gratuita.

Antes de comenzar

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. En la página de selección de proyectos de Cloud Console, selecciona o crea un proyecto de Cloud.

    Ir a la página Selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud. Obtén información sobre cómo confirmar que tienes habilitada la facturación para tu proyecto.

  4. Habilita las API de Cloud Data Fusion, Cloud Storage, and Cloud Dataproc.

    Habilita las API

  5. Crea una instancia de Cloud Data Fusion.

Cuando usas Cloud Data Fusion, usas Cloud Console y la IU de Cloud Data Fusion, que está separada. En Cloud Console, puedes crear un proyecto de Cloud Console, crear y borrar instancias de Cloud Data Fusion. En la IU de Cloud Data Fusion, puedes usar las diversas páginas, como Pipeline Studio o Wrangler, para usar las características de Cloud Data Fusion.

  1. En Cloud Console, abre la página Instancias.

    Abrir la página de instancias

  2. En la columna Acciones de la instancia, haz clic en el vínculo Ver instancia. La IU de Cloud Data Fusion se abrirá en una pestaña nueva del navegador.

Implementa el complemento de Argument Setter

  1. En la IU web de Cloud Data Fusion, haz clic en Centro en la parte superior derecha.

  2. Haz clic en Complemento de acción de Argument setter y haz clic en Implementar.

  3. En la ventana Implementar que se abrirá, haz clic en Finalizar.

  4. Haga clic en Crear una canalización. Se abrirá la página de Pipeline Studio.

Lee desde Cloud Storage

  1. En el panel izquierdo de la página Pipeline Studio, selecciona Google Cloud Storage en el menú desplegable Fuente.
  2. Desplázate sobre la tarjeta fuente de Cloud Storage y haz clic en el botón Propiedades que aparece.
  3. En el campo Nombre de referencia, ingresa un nombre.
  4. En el campo Ruta de acceso, ingresa ${input.path}. Esta macro controla cuál será la ruta de acceso de entrada de Cloud Storage en las diferentes ejecuciones de la canalización.
  5. En el panel Esquema de salida de la derecha, quite el campo desplazamiento del esquema de salida haciendo clic en el ícono de la papelera en la fila del campo de desplazamiento.
  6. Haz clic en el botón X para salir del cuadro de diálogo Propiedades.

Transforma tus datos

  1. En el panel izquierdo de la página Pipeline Studio, a través del menú desplegable Transformación , selecciona Wrangler.
  2. En el lienzo de Pipeline Studio, arrastra una flecha de la tarjeta de Cloud Storage a la tarjeta de Wrangler.
  3. Coloca el cursor sobre la tarjeta de Wrangler y haz clic en el botón Propiedades que aparecerá.
  4. En el Nombre del campo de entrada, ingresa body.
  5. En el campo Receta, ingresa ${directives}. Esta macro controla cuál será la lógica de transformación en las diferentes ejecuciones de canalizaciones.
  6. Haz clic en el botón X para salir del cuadro de diálogo Propiedades.

Escribe en Cloud Storage

  1. En el panel izquierdo de la página Pipeline Studio, en el menú desplegable Receptor , selecciona Cloud Storage.
  2. En el lienzo de Pipeline Studio, arrastra una flecha de la tarjeta de Wrangler a la tarjeta de Cloud Storage que acabas de agregar.
  3. Coloca el cursor sobre la tarjeta del receptor de Cloud Storage y haz clic en el botón Propiedades que aparecerá.
  4. En el campo Nombre de referencia, ingresa un nombre.
  5. En el campo Ruta de acceso, ingresa la ruta de un depósito de Cloud Storage en tu proyecto, en el que tu canalización puede escribir los archivos de salida. Si no tienes un depósito de Cloud Storage, crea uno.
  6. Haz clic en el botón X para salir del menú de propiedades.

Establece los argumentos de macro

  1. En el panel izquierdo de la página Pipeline Studio, con el menú desplegable Condiciones y acciones, selecciona el complemento Establecedor de argumentos.
  2. En el lienzo de Pipeline Studio, arrastra una flecha desde la tarjeta de Argument Setable hasta la tarjeta fuente de Cloud Storage.
  3. Desplaza el cursor sobre la tarjeta del establecedor de argumentos y haz clic en el botón Propiedades que aparece.
  4. En el campo URL, ingresa lo siguiente:

    https://storage.googleapis.com/reusable-pipeline-tutorial/args.json
    

    La URL corresponde a un objeto de acceso público en Cloud Storage que incluye el siguiente contenido:

    {
      "arguments" : [
        {
          "name": "input.path",
          "value": "gs://reusable-pipeline-tutorial/user-emails.txt"
        },
        {
          "name": "directives",
          "value": "send-to-error !dq:isEmail(body)"
        }
      ]
    }
    

    El primero de los dos argumentos es el valor de input.path. La ruta de acceso gs://reusable-pipeline-tutorial/user-emails.txt es un objeto de acceso público en Cloud Storage que contiene los siguientes datos de prueba:

    alice@example.com
    bob@example.com
    craig@invalid@example.com
    

    El segundo argumento es el valor de directives. El valor send-to-error !dq:isEmail(body) configura Wrangler para filtrar cualquier línea que no sea una dirección de correo electrónico válida. Por ejemplo, se filtra craig@invalid@example.com.

  5. Haz clic en el botón X para salir del menú de propiedades.

Implementa y ejecuta la canalización

  1. En la barra superior de la página de Pipeline Studio, haz clic en Asignar un nombre a la canalización. Asígnele un nombre a la canalización y haz clic en Guardar.
  2. Haz clic en Implementar.
  3. Haz clic en Ejecutar para abrir el menú desplegable Argumentos de tiempo de ejecución y ver los argumentos input.path y directives de la macro (entorno de ejecución). Deja los campos de valores en blanco para notificar a Cloud Data Fusion que el nodo Argument Setter en la canalización establecerá los valores de estos argumentos durante el entorno de ejecución.
  4. Haz clic en Ejecutar en el menú desplegable Argumentos del entorno de ejecución.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud Platform por los recursos que usaste en este instructivo:

Una vez que completaste el instructivo, limpia los recursos que creaste en Google Cloud para evitar que se te facture por ellos en el futuro. En las siguientes secciones, se describe cómo borrar o desactivar estos recursos.

Borra la instancia de Cloud Data Fusion

Sigue las instrucciones para borrar tu instancia de Cloud Data Fusion.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. En Cloud Console, ve a la página Administrar recursos.

    Ir a la página Administrar recursos

  2. En la lista de proyectos, selecciona el proyecto que deseas borrar y haz clic en Borrar .
  3. En el cuadro de diálogo, escribe el ID del proyecto y haz clic en Cerrar para borrar el proyecto.

Qué sigue