Orienta la canalización de campaña

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

En este instructivo, se muestra cómo usar Cloud Data Fusion a fin de limpiar, transformar y procesar datos de clientes para seleccionar candidatos para una campaña de orientación.

Situación

Deseas crear materiales de marketing personalizados para una promoción de campaña en curso y deseas distribuir el material directamente en los buzones de correo de tus clientes.

Tu campaña tiene dos restricciones:

  • Ubicación: Solo realizas entregas a clientes en California, Washington y Oregón.
  • Costo: Para ahorrar en combustible, entregas a los hogares de clientes con acceso fácil. Entregas solo a clientes que viven en avenidas.

En este instructivo, se muestra cómo generar la lista de direcciones de clientes para la campaña. En este instructivo, harás lo que se indica a continuación:

  1. Limpiar los datos de los clientes: filtrar a los clientes que viven en una avenida de California, Washington u Oregón
  2. Crea una canalización que haga lo siguiente:
    • Unir los datos de clientes filtrados con un conjunto de datos públicos que contenga abreviaturas de estado
    • Almacena los datos limpios y unidos en una tabla de BigQuery que puedes consultar (mediante la IU web de BigQuery) o analizar (mediante Looker Studio).

Objetivos

  • Conectar Cloud Data Fusion a dos fuentes de datos
  • Aplicar transformaciones básicas
  • Unir las dos fuentes de datos
  • Escribir los datos de salida en un receptor

Costos

En este instructivo, se usan los siguientes componentes facturables de Google Cloud:

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios. Es posible que los usuarios nuevos de Google Cloud califiquen para obtener una prueba gratuita.

Cada ejecución de este instructivo ejecuta un clúster de Dataproc de 3 nodos (1 principal y 2 trabajadores) que se ejecuta durante 6 minutos para escribir alrededor de 6 MB de datos en BigQuery. Dado que almacenarás solo una pequeña cantidad de datos en BigQuery, el costo de BigQuery no se incluirá en esta estimación. Según estos números, el costo aproximado de ejecución de esta canalización una sola vez puede ser el siguiente:

costo total = costo de Cloud Data Fusion + costo de Dataproc

Cada uno de los componentes de esta fórmula se puede desglosar de la siguiente manera:

Costo de Cloud Data Fusion = (tiempo * tarifa de Cloud Data Fusion)

Costo de Dataproc = (tiempo * número de VM * (tarifa de Compute Engine + tarifa de Dataproc 1))

Por ejemplo, considera esta estimación de costo para un trabajo de 6 minutos con el perfil predeterminado de Compute Engine en Cloud Data Fusion, con 3 VM n1-standard4 en la región us-west1:

  • tiempo = 0.1 horas
  • Tarifa de Data Fusion = $1.8 por hora
  • cantidad de VM = 3
  • Tarifa de Compute Engine = $0.19 por hora por VM
  • Tarifa de Dataproc = $0.01 por hora por VM

Si usas estos valores en la fórmula de costo, se obtiene el siguiente costo total para este ejemplo:

(0.1 * 1.8) + (0.1 * 3 * (0.1900 + 0.01))= $0.24 (24 centavos)

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Obtén información sobre cómo verificar si la facturación está habilitada en un proyecto.

  4. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  5. Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Obtén información sobre cómo verificar si la facturación está habilitada en un proyecto.

  6. Habilita las API de Cloud Data Fusion, Cloud Storage, BigQuery and Cloud Dataproc.

    Habilita las API

  7. Crea una instancia de Cloud Data Fusion.

Prepara los datos del cliente

En este instructivo, se requieren los siguientes dos conjuntos de datos de entrada, los cuales se proporcionan en tu instancia de Cloud Data Fusion:

  • Datos de clientes de muestra: Un archivo CSV llamado customers.csv.
  • Abreviaturas de estado: Una tabla de BigQuery llamada state_abbreviations.

Carga los datos del cliente

  1. Ve a la IU web de Cloud Data Fusion.
  2. Navega a la página Wrangler de la IU web.
  3. En el panel izquierdo, en Google Cloud Storage, haz clic en Depósitos de muestra.
  4. Haz clic en campaign-tutorial.
  5. Haz clic en customers.csv. Aparecerán los datos de clientes.

Limpia los datos del cliente

Analiza los datos del cliente en formato de tabla, configura el esquema y filtra los datos del cliente para presentar solo los usuarios objetivo que necesitas.

Analiza los datos

  1. Haz clic en el menú desplegable de la columna body.
  2. Selecciona Parse > CSV.
  3. Con el delimitador seleccionado como coma, haz clic en Apply.imagen
  4. Los datos se dividen en varias columnas, por lo que ya no se necesita la columna body original. Haga clic en el menú desplegable de la columna body y seleccione Borrar columna.

Configura el esquema

Establece el esquema de los datos mediante la asignación de los nombres adecuados a las columnas de la tabla. En lugar de bodyXX, cambia el nombre de las columnas para capturar la información que presentan.

  1. En la pestaña Columnas a la derecha, haz clic en el menú desplegable Nombres de columnas y selecciona Establecer todo.
  2. En el cuadro de diálogo Nombres de columna de conjunto masivo, ingresa el siguiente texto separado por comas: Name,StreetAddress,City,State,Country.
  3. Haz clic en Aplicar.

Filtre los datos.

Filtra los datos para mostrar solo los clientes que viven en California, Oregón o Washington. Para ello, quita todas las filas que contengan valores distintos de estos tres estados.

  1. Haz clic en el menú desplegable de la columna Estado.
  2. Seleccionar filtro.
  3. En la ventana de filtros, haz lo siguiente:

    1. Haz clic en Conservar filas.
    2. En el menú desplegable Si, selecciona valor coincide con la regex.
    3. Ingresa la siguiente expresión regular: ^(California|Oregon|Washington)$.
    4. Haz clic en Aplicar.

    Los valores de la columna Estado son “California”, “Oregón” o “Washington”.

Filtra los datos para mostrar solo a los clientes que residen en avenidas. Para ello, mantén solo las direcciones que contienen la string “avenue”.

  1. A la izquierda de la columna StreetAddress, haz clic en la flecha hacia abajo y selecciona Filtrar.
  2. En el menú desplegable Si, selecciona valor contiene y, luego, ingresa Avenue.
  3. Selecciona Ignorar mayúsculas y minúsculas.

Antes de realizar trabajos de procesamiento paralelo en todo tu conjunto de datos, Wrangler muestra solo los primeros 1,000 valores de un conjunto de datos. Debido a que filtraste algunos datos, solo algunos clientes permanecen en la pantalla de Wrangler.

Crea la canalización

Limpiaste tus datos y ejecutaste transformaciones en un subconjunto de ellos. Ahora puedes crear una canalización por lotes para ejecutar transformaciones en todo tu conjunto de datos.

  1. En Wrangler, en el lado superior derecho, haz clic en Crear canalización.
  2. Selecciona Canalización por lotes. Se lo redireccionará a la página de Pipeline Studio.
  3. En la parte superior izquierda, asegúrate de que Data Pipeline - Batch se muestre como tipo de canalización.

En el lienzo de Pipeline Studio, un nodo de origen GCSFile está conectado a un nodo Wrangler.

Todas las transformaciones que aplicaste en la vista de Wrangler aparecen en el nodo Wrangler del lienzo de Pipeline Studio. Para ver las transformaciones que aplicaste, mantén el puntero sobre el nodo Wrangler y haz clic en Propiedades. En Directives, aparecerán las transformaciones que aplicaste.

Para aplicar más transformaciones, haz clic en Wrangle. Esto te lleva de vuelta a la página de Wrangler. Cuando regreses a las propiedades de nodo en la vista de Pipeline Studio, verás la nueva transformación que agregaste.

Por ejemplo, te das cuenta de que la columna Country no es necesaria porque el valor es siempre “USA”. Para borrar la columna, sigue estos pasos:

  1. Haz clic en Wrangle.
  2. Haz clic en la flecha hacia abajo junto a País y selecciona Borrar columna.
  3. Haga clic en Apply. Esto cierra la vista de Wrangler y regresa a la ventana Propiedades de Wrangler en Pipeline Studio. En la sección Directivas, aparecerá drop Country.
  4. Haz clic en el botón X.

Abrevia los nombres de los estados

El sistema de navegación de tu vehículo de entrega solo reconoce direcciones que contienen nombres de estado abreviados (CA, no California) y, en este momento, tus datos de clientes contienen nombres de estado completos.

La tabla pública state_abbreviations de BigQuery contiene dos columnas: una con los nombres completos de estado y otra con los nombres de estado abreviados. Usa esta tabla para actualizar los nombres de estado en los datos de clientes.

Visualice los datos de los nombres de los estados en BigQuery

  1. En una pestaña separada, abre la IU de BigQuery en Google Cloud Console.

    Ir a la IU de BigQuery

  2. Ingrese la siguiente consulta en el Editor de consultas y haga clic en Ejecutar:

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    

Accede a la tabla de BigQuery

Agrega una fuente en tu canalización que acceda a esta tabla state_abbreviations de BigQuery.

  1. En la pestaña de Cloud Data Fusion, en Pipeline Studio, en la sección del complemento, haz clic en Fuente.
  2. Haga clic en BigQuery.

    Aparecerá un nodo fuente de BigQuery en el lienzo junto con los otros dos nodos.

  3. Mantén el puntero sobre el nodo fuente de BigQuery y haz clic en Propiedades.
    1. En Nombre de referencia, ingresa state_abbreviations.
    2. En Nombre del ID del proyecto del conjunto de datos, ingresa dis-user-guide.
    3. En Conjunto de datos, ingresa campaign_tutorial.
    4. En Tabla, ingresa state_abbreviations.
  4. Propaga el esquema de la tabla desde BigQuery si haces clic en Obtener esquema.
  5. Haz clic en el botón X.

Une las dos fuentes de datos

Une las dos fuentes de datos, los datos del cliente y las abreviaturas de estado para generar un resultado que contenga datos de cliente con nombres de estado abreviados.

  1. En Pipeline Studio, en la sección de complementos a la izquierda, haz clic en Estadísticas.
  2. Haga clic en Unión.

    En el lienzo, aparece un nodo Joiner, que representa una acción similar a una unión de SQL.

  3. Conecta el nodo Wrangler y el nodo de BigQuery al nodo Joiner: arrastra una flecha de conexión en el borde derecho del nodo fuente y suéltalo en el nodo de destino.
  4. Mantén el puntero sobre el nodo Joiner y haz clic en Propiedades.
    1. En Unirse, expande Wrangler y BigQuery.
      1. Anula la selección del campo Estado en Wrangler y el campo nombre en BigQuery, ya que solo quieres el nombre abreviado del estado y no el completo.
      2. En BigQuery, cambia el alias del campo delimiter a State para que sea fácil de identificar.
    2. En Tipo de unión (Join Type), deja el valor como Externo. En Entradas obligatorias, selecciona Wrangler.
    3. En Join Condition, establece la condición de unión para unir la columna State en el nodo Wrangler con la columna name en el nodo BigQuery.
    4. Genera el esquema de la unión resultante. Haz clic en Obtener esquema.
    5. Haz clic en el botón X.

Almacena el resultado en BigQuery

Almacena el resultado de tu canalización en una tabla de BigQuery. El lugar donde almacena sus datos se denomina receptor.

  1. En Pipeline Studio, en la sección del complemento a la izquierda, haz clic en Receptor.
  2. Haz clic en Tabla de BigQuery.
  3. Conecta el nodo Joiner al nodo BigQuery Table.
  4. Mantén el puntero sobre el nodo BigQuery Table y haz clic en Propiedades.
    1. En Nombre de referencia, ingresa customer_data_abbreviated_states.
    2. En Conjunto de datos, ingresa dis_user_guide.
    3. En Tabla, selecciona customer_data_abbreviated_states.
    4. Haz clic en el botón X.

Implementa y ejecuta la canalización

  1. En Pipeline Studio, haz clic en Asigna un nombre a tu canalización y, luego, ingresa CampaignPipeline.
  2. En la esquina superior derecha, haga clic en Implementar.
  3. Una vez que se complete la implementación, haga clic en Ejecutar. Puede tardar unos minutos ejecutar tu canalización. Mientras esperas, puedes observar el Estado de la transición de la canalización de Aprovisionamiento a Iniciada a En ejecución a Desaprovisionamiento en Correcto.

Observa los resultados.

  1. Consulta la tabla campaign_targets en la IU de BigQuery.

    Ir a la IU de BigQuery

  2. Actualice el nombre del proyecto en la consulta a continuación y ponga el nombre de su proyecto.

Realiza una limpieza

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, haga lo siguiente:

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

Borra la instancia de Cloud Data Fusion

Sigue estas instrucciones para borrar tu instancia de Cloud Data Fusion.

Borra el conjunto de datos de BigQuery:

Para borrar el conjunto de datos de BigQuery que creaste como parte de este instructivo, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a la página de BigQuery

  2. Selecciona el conjunto de datos dis_user_guide.
  3. Haz clic en DELETE DATASET.

¿Qué sigue?