Crear una canalización de campaña de destino

Aprende a usar Cloud Data Fusion para limpiar, transformar y procesar datos de clientes a fin de seleccionar candidatos para una campaña objetivo.


Para seguir la guía paso a paso sobre esta tarea de forma directa en la consola de Google Cloud, haz clic en Guiarme:

Guiarme


Situación

Deseas crear materiales de marketing personalizados para una promoción de campaña en curso y deseas distribuir los materiales directamente a los buzones de correo particular de tus clientes.

Su campaña tiene dos restricciones:

  • Ubicación: Solo realizas entregas a clientes en California, Washington y Oregón.
  • Costo: Para ahorrar en combustible, realizas entregas en casas de clientes de acceso rápido. Entregas solo a clientes que viven en avenidas.

En este instructivo, se muestra cómo generar la lista de direcciones de clientes para la campaña. En este instructivo, harás lo que se indica a continuación:

  1. Limpiar los datos de los clientes: filtrar a los clientes que viven en una avenida de California, Washington u Oregón
  2. Crea una canalización que haga lo siguiente:

    • Unir los datos de clientes filtrados con un conjunto de datos públicos que contenga abreviaturas de estado
    • Almacena los datos limpios y unidos en una tabla de BigQuery que puedes consultar (mediante la interfaz web de BigQuery) o analizar (con Looker Studio).

Objetivos

  • Conectar Cloud Data Fusion a dos fuentes de datos
  • Aplicar transformaciones básicas
  • Unir las dos fuentes de datos
  • Escribir los datos de salida en un receptor

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  5. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  6. Habilita las API de Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc.

    Habilita las API

  7. Crea una instancia de Cloud Data Fusion.
    En este instructivo, se supone que usas la cuenta de servicio predeterminada de Compute Engine.

Administrar permisos

Crea y asigna los roles y permisos personalizados necesarios.

Crea un rol personalizado y agrega permisos

  1. En la consola de Google Cloud, ve a la página Roles:

    Ir a la página Roles

  2. Haz clic en Crear rol.

  3. En el campo Title, ingresa Custom Role-Tutorial.

  4. Haz clic en Agregar permisos.

  5. En la ventana Agregar permisos, selecciona los siguientes permisos y haz clic en Agregar:

    • bigquery.datasets.create
    • bigquery.jobs.create
    • storage.buckets.create
  6. Haz clic en Crear.

Asigna un rol personalizado a la cuenta de servicio predeterminada de Compute Engine

  1. Ve a la página Instancias de Cloud Data Fusion:

    Crea una instancia

  2. Haz clic en el nombre de la instancia.

  3. Toma nota de la cuenta de servicio de Dataproc predeterminada. La página de detalles de la instancia contiene esta información.

    A continuación, se muestra el formato del nombre de la cuenta de servicio de Dataproc:

    CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com.

    Obtén más información sobre las cuentas de servicio de Dataproc.

  4. Ve a la página IAM:

    Ir a la página Roles

  5. En la barra de filtros, ingresa el nombre de tu cuenta de servicio predeterminada de Dataproc.

  6. Para la cuenta de servicio predeterminada de Compute Engine, haz clic en Editar.

  7. Haz clic en Agregar otro rol.

  8. En el campo Selecciona un rol, selecciona Instructivo de rol personalizado.

  9. Haz clic en Guardar.

  10. Asegúrate de que la cuenta de servicio ya tenga asignada la función de ejecutor de Cloud Data Fusion.

Prepara los datos del cliente

En este instructivo, se requieren los siguientes dos conjuntos de datos de entrada, los cuales se proporcionan en tu instancia de Cloud Data Fusion:

  • Datos de clientes de muestra: Un archivo CSV llamado customers.csv.
  • Abreviaturas de estado: Una tabla de BigQuery llamada state_abbreviations.

Carga los datos del cliente

  1. Ve a la página Instancias de Cloud Data Fusion:

    Ir a Instancias

  2. En la instancia de Cloud Data Fusion que estás usando, haz clic en Ver instancia. Se abrirá la interfaz web de Cloud Data Fusion en una pestaña nueva.

  3. Haz clic en Wrangler. Se abrirá la página Wrangler.

  4. En el panel Conexiones, selecciona GCS > Buckets de muestra.

  5. Haz clic en campaign-tutorial.

  6. Haz clic en customers.csv.

  7. En la ventana Parsing options, especifica lo siguiente:

    • Formato: csv
    • Habilitar valor entre comillas: False
    • Usar la primera fila como encabezado: False
    • Codificación de archivos: UTF-8
  8. Haz clic en Confirmar. Los datos del cliente se cargan en una pestaña nueva en Wrangler.

    Datos del cliente cargados

Limpie los datos del cliente

Contiene dos subtareas:

  • Configura el esquema
  • Filtrar los datos del cliente para presentar solo el público objetivo que necesitas

Configura el esquema

Establece el esquema de los datos mediante la asignación de los nombres adecuados a las columnas de la tabla. Para asignar nombres más informativos a las columnas, como body_1 y body_2, sigue estos pasos:

  1. En el panel de la derecha, haz clic en la pestaña Columnas.
  2. Haz clic en el menú desplegable Nombres de columna y selecciona Configurar todo.
  3. En el cuadro de diálogo Bulk set column names, ingresa los siguientes nombres de columna separados por comas:

    Name,StreetAddress,City,State,Country
    
  4. Haz clic en Aplicar.

Filtre los datos.

Filtra los datos para mostrar solo los clientes que viven en California, Oregón o Washington.

Quita todas las filas que contengan valores distintos de esos estados:

  1. Haz clic en el menú desplegable Estado y selecciona Filtro.
  2. En la ventana de filtros, haz lo siguiente:

    1. Haz clic en Conservar filas.
    2. Haz clic en el menú desplegable Si y selecciona El valor coincide con la regex.
    3. Ingrese la siguiente expresión regular:

      ^(California|Oregon|Washington)$
      
    4. Haz clic en Aplicar.

    Los valores de la columna Estado son California, Oregón o Washington.

Filtra los datos para mostrar solo a los clientes que residen en avenidas. Mantén solo las direcciones que contienen la string avenue:

  1. Haz clic en el menú desplegable StreetAddress y selecciona Filtrar.
  2. En la ventana de filtros, haz lo siguiente:

    1. Haz clic en Conservar filas.
    2. Haz clic en el menú desplegable Si, selecciona El valor contiene y, luego, ingresa Avenue.
    3. Selecciona Ignorar mayúsculas y minúsculas.
    4. Haz clic en Aplicar.

      Filtre los datos

Antes de realizar trabajos de procesamiento paralelo en todo tu conjunto de datos, Wrangler muestra solo los primeros 1,000 valores de un conjunto de datos. Debido a que filtraste algunos datos, solo algunos clientes permanecen en la pantalla de Wrangler.

Crea una canalización por lotes

Limpiaste tus datos y ejecutaste transformaciones en un subconjunto de ellos. Ahora puedes crear una canalización por lotes para ejecutar transformaciones en todo tu conjunto de datos.

Cloud Data Fusion traduce la canalización que compilas en Studio en un programa de Apache Spark que ejecuta transformaciones en paralelo en un clúster efímero de Dataproc. Este proceso te permite ejecutar transformaciones complejas en grandes cantidades de datos de manera escalable y confiable, sin tener que controlar la infraestructura.

  1. En la página de Wrangler, haz clic en Crear una canalización.
  2. Selecciona Canalización por lotes. Se abrirá la página de Studio.
  3. En la esquina superior izquierda, asegúrate de que Data Pipeline - Batch se muestre como el tipo de canalización.

    Tipo de canalización

    En la página Studio, hay un nodo de origen GCSFile conectado a un nodo Wrangler.

    Nodo de GCSFile conectado al nodo de Wrangler

    Las transformaciones que aplicaste en la página de Wrangler aparecen en el nodo de Wrangler en la página de Studio.

  4. Para ver las transformaciones que aplicaste, mantén el puntero sobre el nodo de Wrangler y haz clic en Properties.

    Las transformaciones que aplicaste aparecen en las Directivas.

    Ver transformaciones aplicadas

  5. Haz clic en Validate.

  6. Haz clic en Cerrar.

Puedes aplicar más transformaciones si haces clic en Wrangle, lo que te llevará de vuelta a la página de Wrangler. La transformación que agregaste aparecerá en la página de Studio.

Por ejemplo, te das cuenta de que la columna Country no es necesaria porque el valor es siempre “USA”. Para borrar la columna, sigue estos pasos:

  1. Haz clic en Wrangle.
  2. Haz clic en la flecha hacia abajo junto a País y selecciona Borrar columna.
  3. Haz clic en Aplicar. Se cierra la página de Wrangler y se abre la ventana de propiedades de Wrangler en la página de Studio. En Directivas, aparece drop Country.
  4. Haz clic en Close.

Abrevie los nombres de los estados

El sistema de navegación de tu vehículo de entrega solo reconoce direcciones que contienen nombres de estado abreviados (CA, no California), y los datos del cliente contienen nombres de estado completos.

La tabla pública state_abbreviations de BigQuery contiene dos columnas: una con los nombres completos de estado y otra con los nombres de estado abreviados. Puedes usar esta tabla para actualizar los nombres de los estados en tus datos del cliente.

Visualice los datos de los nombres de los estados en BigQuery

  1. En una pestaña aparte, ve a la página de BigQuery Studio:

    Ir a BigQuery

  2. Haz clic en Crear consulta en SQL y, luego, ingresa la siguiente consulta en el editor de consultas:

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    
  3. Haz clic en Ejecutar.

    Se mostrarán los nombres de los estados y sus abreviaturas.

    Los nombres de los estados y sus abreviaturas

Cómo acceder a la tabla de BigQuery

Agrega una fuente a tu canalización que acceda a la tabla state_abbreviations de BigQuery.

  1. Ve a la página Studio de Cloud Data Fusion y expande el menú Fuente.
  2. Haga clic en BigQuery.

    Un nodo fuente de BigQuery aparece en el lienzo, junto con los otros dos nodos.

  3. Mantén el puntero sobre el nodo de origen de BigQuery y haz clic en Propiedades.

    1. En el campo ID del proyecto del conjunto de datos, ingresa dis-user-guide.
    2. En el campo Reference Name, ingresa state_abbreviations.
    3. En el campo Conjunto de datos, ingresa campaign_tutorial.
    4. En el campo Tabla, ingresa state_abbreviations.
  4. Propaga el esquema de la tabla desde BigQuery si haces clic en Obtener esquema.

  5. Haz clic en Close.

Una las dos fuentes de datos

Para generar un resultado que contenga datos del cliente con nombres de estado abreviados, une las dos fuentes de datos, los datos del cliente y las abreviaturas de estado.

  1. Ve a la página de Studio de Cloud Data Fusion y expande el menú Analytics.
  2. Haz clic en Unión.

    Aparece en el lienzo un nodo de Unión, que representa una acción similar a una unión de SQL.

  3. Conecta el nodo de Wrangler y el nodo de BigQuery al nodo de Joiner: arrastra una flecha de conexión en el borde derecho del nodo fuente y suéltala en el nodo de destino.

    Une los nodos de Wrangler y BigQuery al nodo de Joiner

  4. Mantén el puntero sobre el nodo de Joiner y haz clic en Properties.

    1. En la sección Campos, expande Wrangler y BigQuery.

      1. Desmarca la casilla de verificación state de Wrangler.
      2. Desmarca la casilla de verificación name de BigQuery porque solo quieres el nombre abreviado del estado y no el nombre completo.
      3. Mantén seleccionada la casilla de verificación abbreviation de BigQuery y cambia el alias a State.

        Propiedades de los nodos de unión

    2. En el campo Join Type, deja el valor como Outer. En Obligatorios entradas, selecciona la casilla de verificación Wrangler.

    3. En la sección Condición de unión, para Wrangler, selecciona Estado. Para BigQuery, selecciona Name.

    4. Genera el esquema de la unión resultante. Haz clic en Obtener esquema.

    5. Haz clic en Validate.

    6. Haz clic en Close.

Almacene el resultado en BigQuery

Almacena el resultado de tu canalización en una tabla de BigQuery. El lugar donde almacena sus datos se denomina receptor.

  1. Ve a la página Studio de Cloud Data Fusion y expande Receptor.
  2. Haga clic en BigQuery.
  3. Conecte el nodo de Unión al de BigQuery.

    Conectar el nodo de Joiner y el nodo de BigQuery

  4. Mantén el puntero sobre el nodo de BigQuery y haz clic en Propiedades.

    1. En el campo Conjunto de datos, ingresa dis_user_guide.
    2. En el campo Tabla, selecciona customer_data_abbreviated_states.
    3. Haz clic en Close.

Implementa y ejecuta la canalización

  1. En la página de Studio, haz clic en Asigna un nombre a tu canalización y, luego, ingresa CampaignPipeline.

    Implementar y ejecutar la canalización

  2. Haz clic en OK.

  3. En la esquina superior derecha, haga clic en Implementar.

  4. Cuando se complete la implementación, haz clic en Ejecutar.

La ejecución de tu canalización puede tardar unos minutos. Mientras esperas, puedes observar el estado de la transición de la canalización desde Aprovisionando > Iniciando > En ejecución > Desaprovisionando > Sin errores.

Vea los resultados

  1. En la consola de Google Cloud, ve a la página de BigQuery:

    Ir a BigQuery

  2. Haz clic en Crear consulta en SQL.

  3. Consulta la tabla customer_data_abbreviated_states:

    SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
    

    Vea los resultados

Creaste correctamente una canalización de datos.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que se usaron en esta página.

Borra el conjunto de datos de BigQuery

Para borrar el conjunto de datos de BigQuery que creaste en este instructivo, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. Selecciona el conjunto de datos dis_user_guide.
  3. Haz clic en Borrar conjunto de datos.

Borra la instancia de Cloud Data Fusion

Sigue estas instrucciones para borrar tu instancia de Cloud Data Fusion.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?