Orienta la canalización de campaña

En este instructivo, se muestra cómo usar Cloud Data Fusion a fin de limpiar, transformar y procesar datos de clientes para seleccionar candidatos para una campaña de orientación.

Situación

Deseas crear materiales de marketing personalizados para una promoción de campaña en curso y deseas distribuir el material directamente en los buzones de correo de tus clientes.

Tu campaña tiene dos restricciones:

  • Ubicación: Solo realizas entregas a clientes en California, Washington y Oregón.
  • Costo: Para ahorrar en combustible, entregas a los hogares de clientes con acceso fácil. Entregas solo a los clientes que viven en las avenidas.

En este instructivo, se muestra cómo generar la lista de direcciones de cliente para la campaña. En este instructivo, harás lo que se indica a continuación:

  1. Limpiar los datos de los clientes: filtrar a los clientes que viven en una avenida de California, Washington u Oregón
  2. Crear una canalización que haga lo siguiente:
    • Unir los datos de clientes filtrados con un conjunto de datos públicos que contenga abreviaturas de estado
    • Almacenar los datos limpiados y combinados en una tabla de BigQuery que puedas consultar (mediante la IU web de BigQuery) o analizar (mediante Data Studio)

Objetivos

  • Conectar Cloud Data Fusion a dos fuentes de datos
  • Aplicar transformaciones básicas
  • Unir las dos fuentes de datos
  • Escribir los datos de salida en un receptor

Costos

En este instructivo, se usan los siguientes componentes facturables de Google Cloud:

Cada ejecución de este instructivo ejecuta un clúster de Dataproc de 3 nodos (1 principal y 2 trabajadores) que se ejecuta durante 6 minutos para escribir alrededor de 6 MB de datos en BigQuery. Dado que almacenarás solo una pequeña cantidad de datos en BigQuery, el costo de BigQuery no se incluirá en esta estimación. Según estos números, el costo aproximado de ejecución de esta canalización una sola vez puede ser el siguiente:

costo total = costo de Cloud Data Fusion + costo de Dataproc

Cada uno de los componentes de esta fórmula se puede desglosar de la siguiente manera:

Costo de Cloud Data Fusion = (tiempo * tarifa de Cloud Data Fusion)

Costo de Dataproc = (tiempo * número de VM * (tarifa de Compute Engine + tarifa de Dataproc 1))

Por ejemplo, considera esta estimación de costo para un trabajo de 6 minutos con el perfil predeterminado de Compute Engine en Cloud Data Fusion, con 3 VM n1-standard4 en la región us-west1:

  • tiempo = 0.1 horas
  • Tarifa de Data Fusion = $1.8 por hora
  • cantidad de VM = 3
  • Tarifa de Compute Engine = $0.19 por hora por VM
  • Tarifa de Dataproc = $0.01 por hora por VM

Si usas estos valores en la fórmula de costo, se obtiene el siguiente costo total para este ejemplo:

(0.1 * 1.8) + (0.1 * 3 * (0.1900 + 0.01))= $0.24 (24 centavos)

Usa la calculadora de precios para generar una estimación de los costos según el uso previsto. Los usuarios nuevos de Google Cloud pueden ser elegibles para obtener una prueba gratuita.

Antes de comenzar

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. En la página de selección de proyectos de Cloud Console, selecciona o crea un proyecto de Cloud.

    Ir a la página Selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud. Obtén información sobre cómo confirmar que tienes habilitada la facturación para tu proyecto.

  4. Habilita las API de Cloud Data Fusion, Cloud Storage, BigQuery and Cloud Dataproc.

    Habilita las API

  5. Crea una instancia de Cloud Data Fusion.

Prepara los datos del cliente

En este instructivo, se requieren los siguientes dos conjuntos de datos de entrada, que se proporcionan con la instancia de Cloud Data Fusion:

  • Datos de clientes de muestra: Un archivo CSV llamado customers.csv.
  • Abreviaturas de estado: Una tabla de BigQuery llamada state_abbreviations.

Carga los datos del cliente

  1. Ve a la IU web de Cloud Data Fusion.
  2. Navega a la página Wrangler de la IU web.
  3. En el panel izquierdo, en Google Cloud Storage, haz clic en Depósitos de muestra.
  4. Haz clic en campaign-tutorial.
  5. Haga clic en customers.csv. Aparecerán los datos de clientes.

Limpia los datos del cliente

Analiza los datos del cliente en formato de tabla, configura el esquema y filtra los datos del cliente para presentar solo el público objetivo que necesites.

Analizar los datos

  1. Haz clic en el menú desplegable de la columna body.
  2. Selecciona Parse > CSV.
  3. Con el delimitador seleccionado como coma, haz clic en Aplicar.image
  4. Los datos se dividen en varias columnas, por lo que ya no se necesita la columna body original. Haga clic en el menú desplegable de la columna body y seleccione Borrar columna.

Configura el esquema.

Asigna el nombre de los datos a las columnas de la tabla para configurar el esquema. En lugar de bodyXX, cambia el nombre de las columnas para capturar la información que presentan.

  1. En la pestaña Columnas a la derecha, haz clic en el menú desplegable Nombres de columnas y selecciona Establecer todo.
  2. En el cuadro de diálogo Nombres de columna de conjunto masivo, ingresa el siguiente texto separado por comas: Name,StreetAddress,City,State,Country.
  3. Haz clic en Aplicar.

Filtre los datos.

Filtra los datos para mostrar solo a los clientes que residen en California, Oregón o Washington. Para hacerlo, quita todas las filas que contengan valores que no sean los de estos tres estados.

  1. Haz clic en el menú desplegable de la columna Estado.
  2. Seleccionar filtro.
  3. En la ventana de filtros, haz lo siguiente:

    1. Haz clic en Conservar filas.
    2. En el menú desplegable Si, selecciona valor coincide con la regex.
    3. Ingresa la siguiente expresión regular: ^(California|Oregon|Washington)$.
    4. Haz clic en Aplicar.

    Los valores de la columna Estado son “California”, “Oregón” o “Washington”.

Filtra los datos para mostrar solo a los clientes que residen en avenidas. Para ello, mantén solo las direcciones que contienen la string “avenue”.

  1. A la izquierda de la columna StreetAddress, haz clic en la flecha hacia abajo y selecciona Filtro.
  2. En el menú desplegable Si, selecciona valor contiene y, luego, ingresa Avenue.
  3. Selecciona Ignorar caso.

Antes de realizar trabajos de procesamiento paralelo en todo tu conjunto de datos, Wrangler muestra solo los primeros 1,000 valores de un conjunto de datos. Debido a que filtraste algunos datos, solo algunos clientes permanecen en la pantalla de Wrangler.

Crea la canalización

Limpiaste tus datos y ejecutaste transformaciones en un subconjunto de tus datos. Ahora puedes crear una canalización por lotes para ejecutar transformaciones en todo tu conjunto de datos.

  1. En Wrangler, en el lado superior derecho, haz clic en Crear canalización.
  2. Seleccione Canalización por lotes. Se lo redireccionará a la página de Pipeline Studio.
  3. En la esquina superior izquierda, asegúrate de que Data Pipeline - Batch se muestre como el tipo de canalización.

En el recuadro de Pipeline Studio, un nodo fuente GCSFile está conectado a un nodo Wrangler.

Todas las transformaciones que aplicaste en la vista de Wrangler aparecen en el nodo Wrangler del recuadro de Pipeline Studio. Para ver las transformaciones que aplicaste, mantén el puntero sobre el nodo Wrangler y haz clic en Propiedades. En Directivas, las transformaciones que aplicaste aparecen.

Para aplicar más transformaciones, haz clic en Wrangle. Esto te lleva de vuelta a la página de Wrangler. Cuando vuelvas a las propiedades del nodo en la vista de Pipeline Studio, verás la transformación nueva que agregaste.

Por ejemplo, te das cuenta de que la columna País no es necesaria porque el valor es siempre "USA". Para borrar la columna, sigue estos pasos:

  1. Haz clic en Wrangle.
  2. Haz clic en la flecha hacia abajo junto a País y selecciona Borrar columna.
  3. Haz clic en Aplicar (Apply). Esto cierra la vista de Wrangler y regresa a la ventana Propiedades de Wrangler en Pipeline Studio. En la sección Directivas, aparece drop Country.
  4. Haz clic en el botón X.

Abrevia los nombres de los estados

El sistema de navegación de tu vehículo de entrega solo reconoce direcciones que contienen nombres de estado abreviados (CA, no California) y, en este momento, tus datos de clientes contienen nombres de estado completos.

La tabla pública state_abbreviations de BigQuery contiene dos columnas: una con los nombres de estado completos y otra con los nombres de estado abreviados. Usarás esta tabla para actualizar los nombres de estado en tus datos de cliente.

Visualiza los datos de los nombres de los estados en BigQuery

  1. En una pestaña separada, abre la IU de BigQuery en Cloud Console.

    Ir a la IU de BigQuery

  2. Ingrese la siguiente consulta en el Editor de consultas y haga clic en Ejecutar:

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    

Accede a la tabla de BigQuery

Agrega una fuente en tu canalización que accederá a esta tabla state_abbreviations de BigQuery.

  1. En la pestaña de Cloud Data Fusion, en Pipeline Studio, en la sección del complemento, haz clic en Fuente.
  2. Haz clic enBigQuery.

    Aparecerá un nodo fuente de BigQuery en el lienzo junto con los otros dos nodos.

  3. Mantén el puntero sobre el nodo de origen de BigQuery y haz clic en Propiedades.
    1. En Nombre de referencia, ingresa state_abbreviations.
    2. En Nombre del ID del proyecto del conjunto de datos, ingresa dis-user-guide.
    3. En Conjunto de datos, ingresa campaign_tutorial.
    4. En Tabla, ingresa state_abbreviations.
  4. Propaga el esquema de la tabla desde BigQuery si haces clic en Obtener esquema.
  5. Haz clic en el botón X.

Une las dos fuentes de datos

Une las dos fuentes de datos, los datos del cliente y las abreviaturas de estado para generar un resultado que contenga datos de cliente con nombres de estado abreviados.

  1. En Pipeline Studio, en la sección de complementos a la izquierda, haz clic en Estadísticas.
  2. Haz clic en Joiner.

    En el lienzo, aparece un nodo Joiner, que representa una acción similar a una unión de SQL.

  3. Conecta el nodo Wrangler y el nodo BigQuery al nodo Joiner: arrastra una flecha de conexión en el borde derecho del nodo de origen y suéltalo en el nodo de destino.
  4. Mantén el puntero sobre el nodo Joiner y haz clic en Propiedades.
    1. En Unirse, expande Wrangler y BigQuery.
      1. Anula la selección del campo Estado en Wrangler y el campo nombre en BigQuery, ya que solo quieres el nombre abreviado del estado y no el completo.
      2. En BigQuery, cambia el alias del campo abreviatura a State para que sea fácil de identificar.
    2. En Tipo de unión (Join Type), deja el valor como Externo. En Entradas obligatorias, selecciona Wrangler.
    3. En Condiciones de unión, configura la condición de unión para unir la columna State en el nodo Wrangler con la columna name en el nodo BigQuery.
    4. Genera el esquema de la unión resultante. Haz clic en Obtener esquema.
    5. Haz clic en el botón X.

Almacena el resultado en BigQuery

Almacena el resultado de tu canalización en una tabla de BigQuery. El lugar donde almacena sus datos se denomina receptor.

  1. En Pipeline Studio, en la sección del complemento a la izquierda, haz clic en Receptor.
  2. Haz clic en Tabla de BigQuery.
  3. Conecta el nodo Joiner al nodo BigQuery Table.
  4. Mantén el puntero sobre el nodo BigQuery Table y haz clic en Propiedades.
    1. En Nombre de referencia, ingresa customer_data_abbreviated_states.
    2. En Conjunto de datos, ingresa dis_user_guide.
    3. En Tabla, selecciona customer_data_abbreviated_states.
    4. Haz clic en el botón X.

Implementa y ejecuta la canalización

  1. En Pipeline Studio, haz clic en Asignar un nombre a tu canalización y, luego, ingresa CampaignPipeline.
  2. En la esquina superior derecha, haga clic en Implementar.
  3. Una vez que se complete la implementación, haga clic en Ejecutar. Ejecutar la canalización puede tardar unos minutos. Mientras espera, puede observar cómo el Estado de la transición de la canalización cambia de Aprovisionamiento a Iniciando, En ejecución, Desaprovisionamiento y Correcto.

Observa los resultados.

  1. Consulta la tabla campaign_targets en la IU de BigQuery.

    Ir a la IU de BigQuery

  2. Actualice el nombre del proyecto en la consulta a continuación y ponga el nombre de su proyecto.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud Platform por los recursos que usaste en este instructivo:

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. En Cloud Console, ve a la página Administrar recursos.

    Ir a la página Administrar recursos

  2. En la lista de proyectos, selecciona el proyecto que deseas borrar y haz clic en Borrar .
  3. En el cuadro de diálogo, escribe el ID del proyecto y haz clic en Cerrar para borrar el proyecto.

Borra la instancia de Cloud Data Fusion

Sigue estas instrucciones para borrar tu instancia de Cloud Data Fusion.

Borra el conjunto de datos de BigQuery:

Para borrar el conjunto de datos de BigQuery que creaste como parte de este instructivo, haz lo siguiente:

  1. En Cloud Console, ve a la página de BigQuery.

    Ir a la página de BigQuery

  2. Selecciona el conjunto de datos dis_user_guide.
  3. Haz clic en DELETE DATASET.

Qué sigue