Crea una canalización de la campaña objetivo

Aprende a usar Cloud Data Fusion para limpiar, transformar y procesar datos de clientes y así seleccionar candidatos para una campaña de segmentación.


Para seguir la guía paso a paso en esta tarea directamente en la consola de Google Cloud, haz clic en Guiarme:

GUIARME


Situación

Quieres crear materiales de marketing personalizados para la promoción de una campaña en curso. y desea distribuir los materiales directamente en los buzones de correo de los tus clientes.

Su campaña tiene dos restricciones:

  • Ubicación: Solo realizas entregas a clientes en California, Washington y Oregón.
  • Costo: Para ahorrar en combustible, entregas a los hogares de clientes con acceso rápido. Entregas solo a clientes que viven en avenidas.

En este instructivo, se muestra cómo generar la lista de direcciones de clientes para la campaña. En este instructivo, harás lo que se indica a continuación:

  1. Limpiar los datos de los clientes: filtrar a los clientes que viven en una avenida de California, Washington u Oregón
  2. Crear una canalización que haga lo siguiente:

    • Unir los datos de clientes filtrados con un conjunto de datos públicos que contenga abreviaturas de estado
    • Almacenar los datos limpiados y combinados en una tabla de BigQuery que puedas consultar (mediante la interfaz web de BigQuery) o analizar (mediante Looker Studio)

Objetivos

  • Conectar Cloud Data Fusion a dos fuentes de datos
  • Aplicar transformaciones básicas
  • Unir las dos fuentes de datos
  • Escribir los datos de salida en un receptor

Antes de comenzar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.

    Enable the APIs

  7. Crea una instancia de Cloud Data Fusion.
    En este instructivo, se supone que usas el servicio predeterminado de Compute Engine de servicio predeterminada.

Administrar permisos

Crea y asigna los roles y permisos personalizados necesarios.

Crea un rol personalizado y agrega permisos

  1. En la consola de Google Cloud, ve a la página Roles.

    Ir a la página Roles

  2. Haz clic en Crear rol.

  3. En el campo Title, ingresa Custom Role-Tutorial.

  4. Haz clic en Agregar permisos.

  5. En la ventana Agregar permisos, selecciona los siguientes permisos y haz clic en Agregar:

    • bigquery.datasets.create
    • bigquery.jobs.create
    • storage.buckets.create
  6. Haz clic en Crear.

Asigna un rol personalizado a la cuenta de servicio predeterminada de Compute Engine

  1. Ve a la página de Instancias de Cloud Data Fusion.

    Crea una instancia

  2. Haz clic en el nombre de la instancia.

  3. Toma nota de la cuenta de servicio de Dataproc predeterminada. La página de detalles de la instancia contiene esta información.

    A continuación, se muestra el formato del nombre de la cuenta de servicio de Dataproc:

    CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com

    Obtén más información sobre las cuentas de servicio de Dataproc.

  4. Ve a la página IAM:

    Ir a la página Roles

  5. En la barra de filtros, ingresa el nombre de tu cuenta de servicio predeterminada de Dataproc.

  6. Para la cuenta de servicio predeterminada de Compute Engine, haz clic en Editar.

  7. Haz clic en Agregar otro rol.

  8. En el campo Selecciona un rol, selecciona Rol personalizado - instructivo.

  9. Haz clic en Guardar.

  10. Asegúrate de que la cuenta de servicio ya tenga asignado el rol de ejecutor de Cloud Data Fusion.

Prepara los datos del cliente

En este instructivo, se requieren los siguientes dos conjuntos de datos de entrada, los cuales se proporcionan en tu instancia de Cloud Data Fusion:

  • Datos de clientes de muestra: Un archivo CSV llamado customers.csv.
  • Abreviaturas de estado: Una tabla de BigQuery llamada state_abbreviations.

Carga los datos del cliente

  1. Ve a la página de Instancias de Cloud Data Fusion.

    Ir a Instancias

  2. En la instancia de Cloud Data Fusion que estás usando, haz clic en Ver instancia. Se abrirá la interfaz web de Cloud Data Fusion en una pestaña nueva.

  3. Haz clic en Wrangler. Se abrirá la página Wrangler.

  4. En el panel Connections, selecciona GCS > Sample Buckets.

  5. Haz clic en campaign-tutorial.

  6. Haz clic en customers.csv.

  7. En la ventana Parsing options, especifica lo siguiente:

    • Format: csv
    • Enable quoted values: False
    • Use first row as header: False
    • File-encoding: UTF-8
  8. Haz clic en Confirmar. Los datos del cliente se cargan en una pestaña nueva en Wrangler.

    Datos del cliente cargados

Limpie los datos del cliente

Esto contiene dos subtareas:

  • Configurar el esquema
  • Filtrar los datos del cliente para presentar solo el público objetivo que necesitas

Configura el esquema

Establece el esquema de los datos mediante la asignación de los nombres adecuados a las columnas de la tabla. Para asignarles nombres más informativos a las columnas, como body_1 y body_2, sigue estos pasos:

  1. En el panel de la derecha, haz clic en la pestaña Columns.
  2. Haz clic en el menú desplegable Column names y selecciona Set all.
  3. En el cuadro de diálogo Bulk set column names, ingresa los siguientes nombres de columna separados por comas:

    Name,StreetAddress,City,State,Country
    
  4. Haz clic en Aplicar.

Filtre los datos.

Filtra los datos para mostrar solo los clientes que viven en California, Oregón o Washington.

Quita todas las filas que contengan valores distintos de esos estados:

  1. Haz clic en el menú desplegable de la columna State y selecciona Filter.
  2. En la ventana de filtros, haz lo siguiente:

    1. Haz clic en Conservar filas.
    2. Haz clic en el menú desplegable If y selecciona value matches regex.
    3. Ingrese la siguiente expresión regular:

      ^(California|Oregon|Washington)$
      
    4. Haz clic en Aplicar.

    Los valores de la columna State son California, Oregon o Washington.

Filtra los datos para mostrar solo a los clientes que residen en avenidas. Mantén solo las direcciones que contienen la string Avenue:

  1. Haz clic en el menú desplegable StreetAddress y selecciona StreetAddress.
  2. En la ventana de filtros, haga lo siguiente:
    1. Haz clic en Conservar filas.
    2. En el menú desplegable If, selecciona value contains y, luego, ingresa Avenue.
    3. Selecciona Ignore case.
    4. Haz clic en Aplicar.

Antes de realizar trabajos de procesamiento paralelo en todo tu conjunto de datos, Wrangler muestra solo los primeros 1,000 valores de un conjunto de datos. Debido a que filtraste algunos datos, solo algunos clientes permanecen en la pantalla de Wrangler.

Crea una canalización por lotes

Limpiaste tus datos y ejecutaste transformaciones en un subconjunto de ellos. Ahora puedes crear una canalización por lotes para ejecutar transformaciones en todo tu conjunto de datos.

Cloud Data Fusion traduce la canalización que compilas en Studio en un programa de Apache Spark que ejecuta transformaciones en paralelo en un clúster efímero de Dataproc. Este proceso te permite ejecutar transformaciones complejas sobre grandes cantidades de datos de manera escalable y confiable, sin tener que controlar la infraestructura.

  1. En la página de Wrangler, haz clic en Create a pipeline.
  2. Selecciona Canalización por lotes. Se abrirá la página de Studio.
  3. En la página de Studio, hay un nodo de origen GCSFile conectado a un nodo GCSFile.

    Nodo GCSFile conectado al nodo Wrangler

    Las transformaciones que aplicaste en la página de Wrangler aparecen en el nodo de Wrangler en la página Studio.

  4. Para ver las transformaciones que aplicaste, mantén el puntero sobre el nodo de Wrangler y haz clic en Properties.

    Las transformaciones que aplicaste aparecen en las Directivas.

    Cómo ver las transformaciones aplicadas

  5. Haz clic en Validate.

  6. Haz clic en Cerrar.

Para aplicar más transformaciones, haz clic en Wrangle, que te llevará de vuelta a la página de Wrangler. La transformación que agregaste aparecerá en Studio. .

Por ejemplo, te das cuenta de que la columna Country no es necesaria porque el valor siempre es USA. Para borrar la columna, sigue estos pasos:

  1. Haz clic en Wrangle.
  2. Haz clic en la flecha hacia abajo junto a País y selecciona Borrar columna.
  3. Haz clic en Aplicar. Se cerrará la página de Wrangler y se abrirá la ventana Wrangler Properties en la página de Studio. En las Directivas, aparece drop Country.
  4. Haz clic en Cerrar.

Abrevie los nombres de los estados

El sistema de navegación de tu vehículo de entrega solo reconoce direcciones que contienen nombres de estados abreviados (CA, no California), y los datos del cliente contienen nombres de estados completos.

La tabla pública state_abbreviations de BigQuery contiene dos columnas: una con los nombres completos de estado y otra con los nombres de estado abreviados. Puedes usar esta tabla para actualizar los nombres de los estados en tus datos del cliente.

Visualice los datos de los nombres de los estados en BigQuery

  1. En una pestaña aparte, ve a la página de BigQuery Studio:

    Ir a BigQuery

  2. Haz clic en Crear una consulta en SQL y, luego, ingresa la siguiente consulta en el editor de consultas:

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    
  3. Haz clic en Ejecutar.

    BigQuery muestra una lista de los nombres de los estados y sus abreviaturas.

Cómo acceder a la tabla de BigQuery

Agrega una fuente en tu canalización que acceda a la tabla state_abbreviations de BigQuery.

  1. Ve a la página Studio de Cloud Data Fusion y expande el menú Source.
  2. Haga clic en BigQuery.

    Aparecerá un nodo fuente de BigQuery en el lienzo junto con los otros dos nodos.

  3. Mantén el puntero sobre el nodo de origen de BigQuery y haz clic en Properties.

    1. En el campo Dataset Project ID, ingresa dis-user-guide.
    2. En el campo Reference Name, ingresa state_abbreviations.
    3. En el campo Dataset, ingresa campaign_tutorial.
    4. En el campo Table, ingresa state_abbreviations.
  4. Propaga el esquema de la tabla desde BigQuery si haces clic en Obtener esquema.

  5. Haz clic en Cerrar.

Una las dos fuentes de datos

Para generar un resultado que contenga datos del cliente con nombres de estados abreviados, une las dos fuentes de datos, los datos del cliente y las abreviaturas de los estados.

  1. Ve a la página de Studio de Cloud Data Fusion y expande el menú Analytics.
  2. Haz clic en Joiner.

    Aparece en el lienzo un nodo de Joiner, que representa una acción similar a una instrucción Join de SQL.

  3. Conecta el nodo Wrangler y el nodo de BigQuery al nodo Joiner. Para ello, arrastra una flecha de conexión del borde derecho del nodo fuente y suéltala en el nodo de destino.

    Cómo unir los nodos de Wrangler y BigQuery al nodo de Joiner

  4. Mantén el puntero sobre el nodo Joiner y haz clic en Properties.

    1. En la sección Fields, expande Wrangler y BigQuery.

      1. Desmarca la casilla de verificación state de Wrangler.
      2. Desmarca la casilla de verificación name de BigQuery, ya que solo necesitas el nombre abreviado del estado.
      3. Mantén seleccionada la casilla de verificación abbreviation de BigQuery y cambia el alias a State.

        Propiedades del nodo de unión

    2. En el campo Join Type, deja el valor como Outer. En Required inputs, selecciona la casilla de verificación Wrangler.

    3. En la sección Join condition, para Wrangler, selecciona State. Para BigQuery, selecciona nombre.

    4. Genera el esquema de la unión resultante. Haz clic en Obtener esquema.

    5. Haz clic en Validate.

    6. Haz clic en Cerrar.

Almacene el resultado en BigQuery

Almacena el resultado de tu canalización en una tabla de BigQuery. El lugar donde almacena sus datos se denomina receptor.

  1. Ve a la página Studio de Cloud Data Fusion y expande Receptor.
  2. Haga clic en BigQuery.
  3. Conecta el nodo de Unión al de BigQuery.

    Conecta el nodo de Joiner y el nodo de BigQuery

  4. Mantén el puntero sobre el nodo BigQuery y haz clic en Propiedades.

    1. En el campo Dataset, ingresa dis_user_guide.
    2. En el campo Table, selecciona customer_data_abbreviated_states.
    3. Haz clic en Cerrar.

Implementa y ejecuta la canalización

  1. En la página de Studio, haz clic en Name your pipeline y, luego, ingresa CampaignPipeline.
  2. Haz clic en Guardar.
  3. En la esquina superior derecha, haga clic en Implementar.
  4. Cuando se complete la implementación, haz clic en Run.

Puede tardar unos minutos ejecutar tu canalización. Mientras esperas, puedes observar el Estado de la transición de la canalización: Provisioning > Starting > Running > Deprovisioning > Succeeded.

Vea los resultados

  1. En la consola de Google Cloud, ve a la página de BigQuery:

    Ir a BigQuery

  2. Haz clic en Crear una consulta en SQL.

  3. Consulta la tabla customer_data_abbreviated_states:

    SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
    

    Vea los resultados

Creaste correctamente una canalización de datos.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

Borra el conjunto de datos de BigQuery

Para borrar el conjunto de datos de BigQuery que creaste en esta haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. Selecciona el conjunto de datos dis_user_guide.
  3. Haz clic en Borrar conjunto de datos.

Borra la instancia de Cloud Data Fusion

Sigue estas instrucciones para borrar tu instancia de Cloud Data Fusion.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

¿Qué sigue?