Crie um pipeline de campanhas segmentadas

Saiba como usar o Cloud Data Fusion para limpar, transformar e processar dados de clientes para selecionar candidatos para uma campanha de destino.


Para seguir orientações passo a passo para esta tarefa diretamente na Google Cloud consola, clique em Orientar-me:

Visita guiada


Cenário

Quer criar materiais de marketing personalizados para uma promoção de campanha contínua e distribuí-los diretamente nas caixas de correio das casas dos seus clientes.

A sua campanha tem duas restrições:

  • Localização: só faz entregas a clientes na Califórnia, Washington e Oregon.
  • Custo: para poupar combustível, faz entregas em casas de clientes de acesso rápido. Entrega apenas a clientes que vivem em avenidas.

Este tutorial mostra como gerar a lista de moradas de clientes para a campanha. Neste tutorial, vai fazer o seguinte:

  1. Limpe os dados de clientes: filtre os clientes que vivem numa avenida na Califórnia, em Washington ou no Oregon.
  2. Crie um pipeline que faça o seguinte:

    • Junta os dados de clientes filtrados a um conjunto de dados público que contém abreviaturas de estados.
    • Armazena os dados limpos e unidos numa tabela do BigQuery que pode consultar (através da interface Web do BigQuery) ou analisar (através do Looker Studio).

Objetivos

  • Associe o Cloud Data Fusion a duas origens de dados
  • Aplique transformações básicas
  • Junte as duas origens de dados
  • Escreva os dados de saída num destino

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  7. Crie uma instância do Cloud Data Fusion.
    Este tutorial pressupõe que usa a conta de serviço do Compute Engine predefinida.
  8. Gerir autorizações

    Crie e atribua as funções e as autorizações personalizadas necessárias.

    Crie uma função personalizada e adicione autorizações

    1. Na Google Cloud consola, aceda à página Funções:

      Aceda à página Funções

    2. Clique em Criar função.

    3. No campo Título, introduza Custom Role-Tutorial.

    4. Clique em Adicionar autorizações.

    5. Na janela Adicionar autorizações, selecione as seguintes autorizações e clique em Adicionar:

      • bigquery.datasets.create
      • bigquery.jobs.create
      • storage.buckets.create
    6. Clique em Criar.

    Atribua uma função personalizada à conta de serviço predefinida do Compute Engine

    1. Aceda à página Instâncias do Cloud Data Fusion:

      Crie uma instância

    2. Clique no nome da instância.

    3. Tome nota da conta de serviço do Dataproc predefinida. A página de detalhes da instância contém estas informações.

      Segue-se o formato do nome da conta de serviço do Dataproc:

      CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com.

      Saiba mais sobre as contas de serviço do Dataproc.

    4. Aceda à página IAM:

      Aceda à página Funções

    5. Na barra Filtro, introduza o nome da sua conta de serviço do Dataproc predefinida.

    6. Para a sua conta de serviço predefinida do Compute Engine, clique em Editar.

    7. Clique em Adicionar outra função.

    8. No campo Selecionar uma função, selecione Função personalizada – Tutorial.

    9. Clique em Guardar.

    10. Certifique-se de que a conta de serviço já tem atribuída a função de executor do Cloud Data Fusion.

Prepare os dados de clientes

Este tutorial requer os dois conjuntos de dados de entrada seguintes, que são fornecidos com a sua instância do Cloud Data Fusion:

  • Dados de clientes de exemplo: um ficheiro CSV denominado customers.csv.
  • Abreviações dos estados: uma tabela do BigQuery denominada state_abbreviations.

Carregue os dados de clientes

  1. Aceda à página Instâncias do Cloud Data Fusion:

    Aceda a Instâncias

  2. Para a instância do Cloud Data Fusion que está a usar, clique em Ver instância. A interface Web do Cloud Data Fusion é aberta num novo separador.

  3. Clique em Wrangler. É apresentada a página Wrangler.

  4. No painel Ligações, aceda a GCS > Exemplos de contentores.

  5. Clique em campaign-tutorial.

  6. Clique em customers.csv.

  7. Na janela Opções de análise, especifique o seguinte:

    • Formato: csv
    • Ativar valor cotado: False
    • Usar a primeira linha como cabeçalho: False
    • Codificação de ficheiros: UTF-8
  8. Clique em Confirm. Os dados dos clientes são carregados num novo separador no Wrangler.

    Dados de clientes carregados

Limpe os dados de clientes

Esta contém duas subtarefas:

  • Definir o esquema
  • Filtrar os dados dos clientes para apresentar apenas o público-alvo de que precisa

Defina o esquema

Defina o esquema dos dados atribuindo nomes adequados às colunas da tabela. Para atribuir nomes mais informativos às colunas, como body_1 e body_2, siga estes passos:

  1. No painel do lado direito, clique no separador Colunas.
  2. Clique no menu pendente Nomes das colunas e selecione Definir tudo.
  3. Na caixa de diálogo Nomes das colunas do conjunto em massa, introduza os seguintes nomes das colunas separados por vírgulas:

    Name,StreetAddress,City,State,Country
    
  4. Clique em Aplicar.

Filtre os dados

Filtre os dados para apresentar apenas os clientes que vivem na Califórnia, no Oregon ou em Washington.

Remova todas as linhas que contenham valores diferentes dos seguintes estados:

  1. Clique no menu pendente da coluna Estado e selecione Filtrar.
  2. Na janela de filtro, faça o seguinte:

    1. Clique em Manter linhas.
    2. Clique no menu pendente Se e selecione o valor corresponde à regex.
    3. Introduza a seguinte expressão regular:

      ^(California|Oregon|Washington)$
      
    4. Clique em Aplicar.

    Os valores na coluna Estado são Califórnia, Oregão ou Washington.

Filtre os dados para apresentar apenas clientes que vivem em avenidas. Mantenha apenas os endereços que contêm a string Avenue:

  1. Clique no menu pendente da coluna StreetAddress e selecione Filtrar.
  2. Na janela de filtro, faça o seguinte:
    1. Clique em Manter linhas.
    2. Clique no menu pendente Se, selecione o valor contém e introduza Avenue.
    3. Selecione Ignorar maiúsculas/minúsculas.
    4. Clique em Aplicar.

Antes de executar tarefas de processamento paralelo no conjunto de dados completo, o Wrangler apenas apresenta os primeiros 1000 valores do conjunto de dados. Uma vez que filtrou alguns dados, restam apenas alguns clientes na apresentação do Wrangler.

Crie um pipeline em lote

Limparam os dados e executaram transformações num subconjunto dos dados. Agora, pode criar um pipeline em lote para executar transformações em todo o conjunto de dados.

O Cloud Data Fusion traduz o pipeline que cria no Studio num programa Apache Spark que executa transformações em paralelo num cluster Dataproc efémero. Este processo permite-lhe executar transformações complexas em grandes quantidades de dados de forma escalável e fiável, sem ter de gerir a infraestrutura.

  1. Na página do Wrangler, clique em Criar um pipeline.
  2. Selecione Pipeline em lote. É apresentada a página do Studio.
  3. Na página do Studio, um nó de origem GCSFile está ligado a um nó Wrangler.

    Nó GCSFile ligado ao nó Wrangler

    As transformações que aplicou na página do Wrangler aparecem no nó Wrangler na página do Studio.

  4. Para ver as transformações que aplicou, coloque o cursor do rato sobre o nó Wrangler e clique em Propriedades.

    As transformações que aplicou aparecem nas Diretivas.

    Veja as transformações aplicadas

  5. Clique em Validar.

  6. Clique em Fechar.

Pode aplicar mais transformações clicando em Organizar, que volta a direcionar para a página do Wrangler. A transformação que adicionou aparece na página do Studio.

Por exemplo, percebe que a coluna País não é necessária porque o valor é sempre USA. Siga estes passos para eliminar a coluna:

  1. Clique em Wrangle.
  2. Clique na seta para baixo junto a País e selecione Eliminar coluna.
  3. Clique em Aplicar. A página do Wrangler é fechada e a janela de propriedades do Wrangler é aberta na página do Studio. Em Diretivas, é apresentado drop Country.
  4. Clique em Fechar.

Abreviar os nomes dos estados

O sistema de navegação no seu veículo de entrega só reconhece moradas que contêm nomes de distritos abreviados (CA, e não Califórnia), e os seus dados de clientes contêm nomes de distritos completos.

A tabela pública do BigQuery state_abbreviations contém duas colunas: uma com os nomes completos dos estados e outra com os nomes abreviados dos estados. Pode usar esta tabela para atualizar os nomes dos estados nos dados dos clientes.

Veja os dados dos nomes dos estados no BigQuery

  1. Num separador separado, aceda à página do BigQuery Studio:

    Aceda ao BigQuery

  2. Clique em Criar consulta SQL e introduza a seguinte consulta no editor de consultas:

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    
  3. Clique em Executar.

    O BigQuery apresenta uma lista de nomes de estados e as respetivas abreviaturas.

Aceda à tabela do BigQuery

Adicione uma origem no pipeline que aceda à tabela do BigQuery state_abbreviations.

  1. Aceda à página do Cloud Data Fusion Studio e expanda o menu Origem.
  2. Clique em BigQuery.

    É apresentado um nó de origem do BigQuery na tela, juntamente com os outros dois nós.

  3. Passe o ponteiro do rato sobre o nó de origem do BigQuery e clique em Propriedades.

    1. No campo ID do projeto do conjunto de dados, introduza dis-user-guide.
    2. No campo Nome de referência, introduza state_abbreviations.
    3. No campo Conjunto de dados, introduza campaign_tutorial.
    4. No campo Tabela, introduza state_abbreviations.
  4. Preencha o esquema da tabela do BigQuery clicando em Obter esquema.

  5. Clique em Fechar.

Junte as duas origens de dados

Para gerar resultados que contenham dados de clientes com nomes de estados abreviados, associe as duas origens de dados, os dados de clientes e as abreviaturas dos estados.

  1. Aceda à página do Cloud Data Fusion Studio e expanda o menu Analytics.
  2. Clique em Aderente.

    É apresentado um nó Joiner, que representa uma ação semelhante a uma junção SQL, na tela.

  3. Associe o nó Wrangler e o nó BigQuery ao nó Joiner: arraste uma seta de associação na extremidade direita do nó de origem e solte-a no nó de destino.

    Junte nós do Wrangler e do BigQuery ao nó Joiner

  4. Passe o cursor do rato sobre o nó Joiner e clique em Propriedades.

    1. Na secção Campos, expanda Wrangler e BigQuery.

      1. Desmarque a caixa de verificação state do Wrangler.
      2. Desmarque a caixa de verificação do nome do BigQuery porque quer apenas o nome abreviado do estado e não o nome completo do estado.
      3. Mantenha a caixa de verificação abreviatura do BigQuery selecionada e altere o alias para State.

        Propriedades do nó de junção

    2. No campo Tipo de junção, mantenha o valor como Exterior. Para Entradas obrigatórias, selecione a caixa de verificação Wrangler.

    3. Na secção Condição de junção, para o Wrangler, selecione Estado. Para o BigQuery, selecione nome.

    4. Gere o esquema da junção resultante. Clique em Obter esquema.

    5. Clique em Validar.

    6. Clique em Fechar.

Armazene a saída no BigQuery

Armazenar o resultado do pipeline numa tabela do BigQuery. O local onde armazena os seus dados é denominado destino.

  1. Aceda à página do Cloud Data Fusion Studio e expanda Destino.
  2. Clique em BigQuery.
  3. Associe o nó Joiner ao nó BigQuery.

    Associe o nó Joiner e o nó do BigQuery

  4. Passe o ponteiro do rato sobre o nó BigQuery e clique em Propriedades.

    1. No campo Conjunto de dados, introduza dis_user_guide.
    2. No campo Tabela, selecione customer_data_abbreviated_states.
    3. Clique em Fechar.

Implemente e execute a tubagem

  1. Na página do Studio, clique em Dê um nome ao seu pipeline e introduza CampaignPipeline.
  2. Clique em Guardar.
  3. No canto superior direito, clique em Implementar.
  4. Após a conclusão da implementação, clique em Executar.

A execução do pipeline pode demorar alguns minutos. Enquanto aguarda, pode observar o Estado da transição do pipeline de Aprovisionamento > A iniciar > Em execução > Desaprovisionamento > Concluído.

Veja os resultados

  1. Na Google Cloud consola, aceda à página do BigQuery:

    Aceder ao BigQuery

  2. Clique em Criar consulta SQL.

  3. Consulte a tabela customer_data_abbreviated_states:

    SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
    

    Veja os resultados

Criou com êxito um pipeline de dados.

Limpar

Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.

Elimine o conjunto de dados do BigQuery

Para eliminar o conjunto de dados do BigQuery que criou neste tutorial, faça o seguinte:

  1. Na Google Cloud consola, aceda à página do BigQuery.

    Aceder ao BigQuery

  2. Selecione o conjunto de dados dis_user_guide.
  3. Clique em Eliminar conjunto de dados.

Elimine a instância do Cloud Data Fusion

Siga estas instruções para eliminar a sua instância do Cloud Data Fusion.

Elimine o projeto

A forma mais fácil de eliminar a faturação é eliminar o projeto que criou para o tutorial.

Para eliminar o projeto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

O que se segue?