Como segmentar pipeline de campanha

Neste tutorial, mostramos como usar o Cloud Data Fusion para limpar, transformar e processar dados de clientes para selecionar candidatos a uma campanha de segmentação.

Cenário

Você quer criar materiais de marketing personalizados para uma divulgação de campanha em andamento e quer distribuir os materiais diretamente nas caixas de correio dos clientes.

Sua campanha tem duas restrições:

  • Local: você só faz entregas para clientes na Califórnia, em Washington e no Oregon.
  • Custo: para economizar combustível, você entrega em casas de clientes de fácil acesso. Você entrega somente para clientes que moram em avenidas.

Neste tutorial, mostramos como gerar a lista de endereços de clientes para a campanha. Neste tutorial, você faz as ações a seguir:

  1. Limpar os dados do cliente: filtre os clientes que moram em uma via na Califórnia, em Washington ou no Oregon.
  2. Criar um pipeline que faça o seguinte:
    • Une os dados filtrados do cliente a um conjunto de dados público com abreviações de estado.
    • Armazena os dados limpos e mesclados em uma tabela do BigQuery que pode ser consultada usando a IU da Web do BigQuery ou analisada usando o Data Studio.

Objetivos

  • Conectar o Cloud Data Fusion a duas fontes de dados
  • Aplicar transformações básicas.
  • Mesclar as duas fontes de dados.
  • Gravar os dados de saída em um coletor

Custos

Neste tutorial, há componentes faturáveis do Google Cloud, a saber:

Cada execução deste tutorial gera um cluster do Dataproc de três nós (um mestre e dois workers) que é executado por cerca de 6 minutos para gravar aproximadamente 6 MB de dados no BigQuery. Como será armazenada apenas uma pequena quantidade de dados no BigQuery, o custo será ignorado como parte dessa estimativa. Com base nesses números, o custo de uma única execução desse pipeline pode ser aproximadamente:

custo total = custo do Cloud Data Fusion + custo do Dataproc

Cada um dos componentes dessa fórmula pode ser detalhado da seguinte maneira:

custo do Cloud Data Fusion = (tempo * taxa do Cloud Data Fusion)

custo do Dataproc = (tempo * número de VMs * (taxa do Compute Engine + taxa do Dataproc 1))

Por exemplo, considere esta estimativa de custo para um job de seis minutos usando o perfil padrão do Compute Engine no Cloud Data Fusion, com três VMs n1-standard4 na região us-west1:

  • tempo = 0,1 hora
  • taxa do Data Fusion = US $1,8/hora
  • número de VMs = 3
  • taxa do Compute Engine = US $0,19/hora/VM
  • taxa do Dataproc = US $0,01/hora/VM

Usando esses valores na fórmula de custo, você chega ao seguinte custo total para este exemplo:

(0,1 * 1,8) + (0,1 * 3 * (0,1900 + 0,01)) = $0,24 (24 centavos)

Use a calculadora de preços para gerar uma estimativa de custos baseada na projeção de uso. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

  1. Faça login na sua conta do Google.

    Se você ainda não tiver uma, inscreva-se.

  2. No Console do Cloud, na página do seletor de projetos, selecione ou crie um projeto do Cloud.

    Acessar a página do seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud. Saiba como confirmar se a cobrança está ativada para o seu projeto.

  4. Ative as APIs Cloud Data Fusion, Cloud Storage, BigQuery and Cloud Dataproc.

    Ative as APIs

  5. Crie uma instância do Cloud Data Fusion.

Preparar os dados do cliente

Este tutorial requer os dois conjuntos de dados de entrada a seguir, ambos fornecidos com a instância do Cloud Data Fusion:

  • Dados do cliente de amostra: um arquivo CSV chamado customers.csv.
  • Abreviações de estado: uma tabela do BigQuery chamada state_abbreviations.

Carregar os dados do cliente

  1. Acesse a IU da Web do Cloud Data Fusion.
  2. Navegue até a página Wrangler da IU da Web.
  3. No painel esquerdo, em Google Cloud Storage, clique em Buckets de amostra.
  4. Clique em campaign-tutorial.
  5. Clique em clientes.csv. Os dados do cliente são exibidos.

Limpar os dados do cliente

Analise os dados do cliente no formato de tabela, defina o esquema e filtre os dados do cliente para apresentar apenas o público-alvo necessário.

Analisar os dados

  1. Clique na lista suspensa da coluna corpo.
  2. Selecione Parse > CSV.
  3. Com o delimitador selecionado como vírgula, clique em Aplicar. image
  4. Os dados são divididos em várias colunas. Portanto, a coluna corpo original não é mais necessária. Clique na lista suspensa da coluna corpo e selecione Excluir coluna:

Definir o esquema

Defina o esquema dos dados atribuindo nomes apropriados às colunas da tabela. Em vez de bodyXX, renomeie as colunas para capturar as informações que elas apresentam.

  1. Na guia Colunas à direita, clique na lista suspensa Nomes de colunas e selecione Definir tudo.
  2. Na caixa de diálogo Nomes de colunas em massa, digite o seguinte texto separado por vírgulas: Name,StreetAddress,City,State,Country.
  3. Clique em Apply.

Filtrar os dados

Filtre os dados para exibir somente os clientes que moram na Califórnia, no estado de Washington ou em Washington. Para fazer isso, remova todas as linhas com valores diferentes desses três estados.

  1. Clique na lista suspensa da coluna Estado.
  2. Select Filtrar.
  3. Na janela de filtro, faça o seguinte:

    1. Clique em Manter linhas.
    2. Na lista suspensa Se, selecione o valor corresponde ao regex.
    3. Digite a seguinte expressão regular: ^(California|Oregon|Washington)$.
    4. Clique em Apply.

    Os valores na coluna Estado são "California", "Oregon" ou "Washington".

Filtre os dados para exibir somente clientes que moram em avenidas. Para fazer isso, mantenha apenas os endereços que contêm a string "avenue".

  1. À esquerda da coluna Endereço, clique na seta para baixo e selecione Filtrar.
  2. Na lista suspensa Se, selecione o valor contém e insira Avenue.
  3. Selecione Ignorar diferença entre maiúsculas e minúsculas..

Antes de executar jobs de processamento paralelo em todo o conjunto de dados, o Wrangler exibe apenas os primeiros 1.000 valores do conjunto de dados. Como você filtrou alguns dados, apenas alguns clientes permanecem na tela do Wrangler.

Criar o pipeline

Você limpou os dados e executou transformações em um subconjunto de dados. Agora é possível criar um pipeline em lote para executar transformações em todo o conjunto de dados.

  1. No canto superior direito do Wrangler, clique em Criar pipeline.
  2. Selecione Pipeline em lote. Você será direcionado para a página do Pipeline Studio.
  3. No canto superior esquerdo, verifique se Pipeline de dados - Lote é exibido como o tipo de pipeline.

Na tela do Pipeline Studio, um nó de origem GCSFile é conectado a um nó Wrangler.

Todas as transformações aplicadas na visualização do Wrangler aparecem no nó Wrangler da tela do Pipeline Studio. Para ver as transformações aplicadas, mantenha o ponteiro sobre o nó Wrangler e clique em Propriedades. As transformações aplicadas são exibidas em Diretivas.

Para aplicar mais transformações, clique em Wrangle. Isso levará você de volta à página do Wrangler. Ao retornar às propriedades do nó na visualização do Pipeline Studio, você verá a nova transformação adicionada.

Por exemplo, você perceberá que a coluna País não é necessária, porque o valor é sempre "EUA". Para excluir a coluna, siga estas etapas:

  1. Clique em Wrangle.
  2. Clique na seta para baixo ao lado de País e selecione Excluir coluna.
  3. Clique em Apply. Isso fecha a visualização do Wrangler e retorna à janela "Propriedades do Wrangler" no Pipeline Studio. Na seção Diretivas, drop Country é exibido.
  4. Clique no botão X.

Abreviar os nomes de estado

O sistema de navegação do seu veículo de entrega reconhece apenas endereços com nomes de estado abreviados (CA, não Califórnia) e, no momento, os dados de clientes estão com nomes de estado completos.

A tabela pública state_abbreviations do BigQuery tem duas colunas: uma com os nomes de estado completos e outra com os nomes de estado abreviados. Use essa tabela para atualizar os nomes dos estados nos dados de clientes.

Ver os dados de nomes de estado no BigQuery

  1. Em uma guia separada, abra a IU do BigQuery no Console do Cloud.

    Acessar a IU do BigQuery

  2. Digite a consulta a seguir no Editor de consultas e clique em EXECUTAR:

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    

Acessar a tabela do BigQuery

Adicione uma origem ao pipeline que acessará essa tabela state_abbreviations do BigQuery.

  1. De volta à guia do Cloud Data Fusion, no Pipeline Studio, na seção do plug-in à esquerda, clique em Origem.
  2. Clique em BigQuery.

    Um nó de origem do BigQuery aparecerá na tela com os outros dois nós.

  3. Mantenha o ponteiro sobre o nó de origem do BigQuery e clique em Propriedades.
    1. Em Nome de referência, digite state_abbreviations.
    2. Em Nome do ID do projeto do conjunto de dados, digite dis-user-guide.
    3. Em Conjunto de dados, digite campaign_tutorial.
    4. Em Tabela, digite state_abbreviations.
  4. Preencha o esquema da tabela do BigQuery clicando em Ver esquema.
  5. Clique no botão X.

Mesclar as duas fontes de dados.

Junte as duas fontes de dados, os dados do cliente e as abreviações de estado para gerar uma saída que contenha dados do cliente com nomes de estado abreviados.

  1. No Pipeline Studio, na seção de plug-ins à esquerda, clique em Analytics.
  2. Clique em Combinador.

    Aparecerá na tela um nó Joiner, que representa uma ação semelhante a uma junção SQL.

  3. Conecte o nó Wrangler e o nó BigQuery ao nó Joiner arraste uma seta de conexão da extremidade direita do nó de origem e solte-o no nó de destino.
  4. Mantenha o ponteiro sobre o nó Joiner e clique em Propriedades.
    1. Em Combinar, expanda Wrangler e BigQuery.
      1. Desmarque o campo Estado em Wrangler e o campo nome em BigQuery, já que você quer apenas o nome do estado abreviado e não o nome completo do estado.
      2. Em BigQuery, altere o alias do campo abreviação para State para facilitar a identificação.
    2. Em Tipo de combinação, deixe o valor como Externa. Em Entradas obrigatórias, selecione Wrangler.
    3. Em Condição de combinação, defina a condição de combinação para mesclar a coluna State no nó Wrangler com a coluna name no nó BigQuery.
    4. Gere o esquema da combinação resultante. Clique em Ver esquema.
    5. Clique no botão X.

Armazenar a saída no BigQuery

Armazene o resultado do pipeline em uma tabela do BigQuery. O local onde seus dados são armazenados é chamado de coletor.

  1. No Pipeline Studio, na seção do plug-in à esquerda, clique em Coletor.
  2. Clique em Tabela do BigQuery.
  3. Conecte o nó Joiner ao nó BigQuery Table.
  4. Mantenha o ponteiro sobre o nó BigQuery Table e clique em Propriedades.
    1. Em Nome de referência, digite customer_data_abbreviated_states.
    2. Em Conjunto de dados, digite dis_user_guide.
    3. Em Tabela, selecione customer_data_abbreviated_states.
    4. Clique no botão X.

Implantar e executar o pipeline

  1. No Pipeline Studio, clique em Digite o nome do pipeline e digite CampaignPipeline.
  2. No canto superior direito, clique em Deploy.
  3. Quando a implantação for concluída, clique em Executar. A execução do pipeline pode levar alguns minutos. Enquanto espera, observe o Status do pipeline mudar de Provisionando para Iniciando para Em execução para Desprovisionando para Concluído.

Ver os resultados

  1. Consulte a tabela campaign_targets na IU do BigQuery.

    Acessar a IU do BigQuery

  2. Atualize o nome do projeto na consulta abaixo para o nome do seu próprio projeto.

Limpar

Para evitar que os recursos usados neste tutorial sejam cobrados na conta do Google Cloud Platform, faça o seguinte:

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluir o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. No Console do Cloud, acesse a página Gerenciar recursos:

    Acessar a página "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Excluir a instância do Cloud Data Fusion

Siga estas instruções para excluir a instância do Cloud Data Fusion.

Excluir o conjunto de dados do BigQuery:

Para excluir o conjunto de dados do BigQuery criado como parte deste tutorial, faça o seguinte:

  1. No Console do Cloud, acesse a página do BigQuery.

    Acessar a página do BigQuery

  2. Selecione o conjunto de dados dis_user_guide.
  3. Clique em EXCLUIR CONJUNTO DE DADOS.

A seguir