Criar um armazenamento de dados de marketing

Neste artigo, examinaremos como coletar dados de várias fontes para criar listas de remarketing, anteriormente indisponíveis. Usando essas listas, você pode capturar uma visão holística de seus clientes. Ao entender como os clientes interagem com sua marca, você gera valor de vida útil (LTV) e possibilita informações de mercado mais profundas.

O papel do profissional de marketing está evoluindo da execução da campanha tradicional para o envolvimento relevante e em tempo real. Se, por um lado, a captura de dados e a análise de desempenho retroativo orientavam o antigo paradigma, o profissional de marketing de hoje usa insights de clientes com base em dados, estratégia orientada por desempenho e segmentação proativa e criteriosa.

Essa nova abordagem traz um novo conjunto de desafios. Por exemplo, o armazenamento continuamente mais barato contribui para o grande crescimento dos dados exponenciais, mas reunir esses dados em um único local para analisá-los continua sendo um desafio. Alguns fatores dificultadores incluem:

  • várias origens e formatos de dados que geralmente são isolados;
  • muitas análises e ferramentas de extração, transformação e carregamento (ETL) diferentes que podem ser difíceis de implementar;
  • recursos técnicos escassos;
  • falta de flexibilidade para testar e fazer protótipos.

Neste artigo, estes fatores serão abordados e você verá como criar um fluxo de trabalho que possa ser usado com seus próprios dados. O artigo pressupõe um conhecimento básico da linguagem de consulta estruturada (SQL). Para algumas partes relacionadas a machine learning, talvez seja preciso a ajuda de um analista ou cientista de dados.

Caso de uso

A empresa fictícia neste exemplo é uma varejista de cosméticos on-line, e você é o diretor de marketing. Você quer receber insights importantes, minimizando a quantidade de envolvimento técnico com as equipes de DevOps. Os recursos de TI são limitados, mas você tem a ajuda de um cientista de dados.

Seu principal desafio é otimizar o orçamento de marketing acompanhando o retorno do investimento (ROI) dos gastos com publicidade. No entanto, você enfrenta alguns desafios relacionados aos dados:

  • Os dados estão dispersos nos produtos Google Analytics 360, gestão de relacionamento com o cliente (CRM) e Campaign Manager, entre outras fontes.
  • Os dados de clientes e de vendas são armazenados em um sistema de CRM.
  • Alguns dados não estão em um formato consultável.
  • Não existe uma ferramenta comum para analisar dados e compartilhar resultados com o resto da organização.

Neste artigo, abordaremos essas questões e descreveremos as soluções a seguir:

  • Coletar dados em um local de armazenamento comum
  • Transformar esses dados para que possam ser consultados e unidos em diferentes origens
  • Conseguir acesso a dimensões de relatórios que não estão disponíveis em APIs de relatórios padrão
  • Alavancar jobs de machine learning para descobrir grupos de usuários

Ao realizar essas tarefas, você pode criar listas de remarketing que não estavam disponíveis antes.

Arquitetura

No diagrama de arquitetura a seguir, ilustramos o processo de mudança de ingestão de dados de várias origens para a tomada de decisões de remarketing.

Da ingestão de dados às decisões de remarketing
Figura 1: como passar da ingestão de dados para a tomada de decisões de remarketing.
  • Nesse diagrama, alguns conjuntos de dados têm a cor mais clara para indicar que não fazem parte dos casos de uso específicos descritos nesse artigo, mas é possível resolvê-los da mesma maneira. Por exemplo, neste artigo, mostramos como executar o Google Ad Manager ou consultas do YouTube em dados do Campaign Manager, mas é possível fazer o mesmo com dados exportados para o BigQuery.
  • O diagrama inclui uma seção rotulada como Mais avançado. Quando houver dados consolidados em um local central, um cientista de dados pode ajudá-lo a usar esses dados para fazer trabalhos mais avançados, como machine learning.

Requisitos funcionais

Nesta seção, explicaremos as opções de tecnologia com base nos requisitos funcionais a seguir:

  • Coleta e armazenamento de dados
  • Transformação de dados
  • Análise de dados
  • Visualização de dados
  • Ativação de dados

Coletar e armazenar dados

O primeiro passo para conseguir informações é consolidar seus dados em um local central. Escolha uma tecnologia que ajude você a coletar informações dos seus canais de marketing e fontes de dados mais importantes com eficiência, começando com os dados do Google.

O BigQuery oferece recursos de armazenamento e um mecanismo de consulta, além de poder processar dados de várias fontes. Neste artigo, você reunirá dados relacionados aos itens a seguir:

  • Google Ads: o serviço de transferência de dados do BigQuery pode ingerir dados de maneira fácil e automática de fontes como o Google Marketing Platform, o Google Ads ou o YouTube.
  • Analytics 360: explore as opções de atualização de dados, desde a atualização a cada 10 minutos até a diária, para encontrar a opção que melhor atende às suas necessidades. O Analytics 360 oferece conexão direta com o BigQuery.
  • Dados próprios: faça a ingestão de dados de origens como o CRM ou o ponto de venda (PDV). Na maioria dos casos, você faz essa ingestão de dados off-line usando a ferramenta de linha de comando bq, a API ou a IU da Web. É possível carregar dados localmente ou do Cloud Storage. O Cloud Storage é a abordagem recomendada para grandes conjuntos de dados ou quando você estiver pensando em criar um data lake.
O processo de coleta de dados
Figura 2: como coletar e consolidar dados.

Transformar

Nesta seção, abordaremos a preparação dos dados para análise, o que inclui limpeza e reformatação para fornecer consistência em grandes conjuntos de dados. Você quer que seus analistas possam limpar dados com pouca ou nenhuma programação, por exemplo, por meio de uma ferramenta visual que pode escalonar e executar transformações distribuídas.

É possível usar o BigQuery para fazer uma transformação em lote de uma tabela para outra ou usando uma Visualização. Mas para transformações mais avançadas, prefira uma ferramenta visual que possa executar terabytes de dados por meio de um pipeline de processamento complexo com requisitos mínimos de programação.

Suponha que você tenha uma string de chave-valor, como o campo Other_data exportado para a tabela de atividades do Campaign Manager:

key1=value1&key2=value2&...keyN=valueN

Você quer dividir essa string em uma tabela de colunas e valores, como esta:

key1 | key2 | … | keyN
----------------------
val1 | val2 | … | valN

Fazer com que os nomes das chaves apareçam como colunas facilita as junções com outras tabelas existentes. As chaves podem conter informações personalizadas, como o ID do usuário de CRM, a lista de produtos ou os dados do módulo de rastreamento do Urchin (UTM, na sigla em inglês).

O Dataprep by Trifacta oferece um atributo chamado roteiros que pode ser usado para definir transformações. Um roteiro é uma sequência de tarefas que é executada nos bastidores em um ambiente distribuído.

Roteiro do Cloud Dataprep

Quando você define um roteiro, o Dataprep by Trifacta fornece uma visualização de como os dados serão exibidos. Na captura de tela a seguir, observe que, quando os dados transformados são armazenados, eles contêm novas colunas, como tratamentos, produtos, interesses e associação.

como armazenar dados transformados

O Dataprep by Trifacta também é compatível com várias origens de entrada e saída, incluindo o BigQuery. Por isso, ele é uma boa opção para essa solução. O Dataprep by Trifacta pode ler o conjunto de dados do BigQuery importado do Campaign Manager e salvar os resultados novamente no BigQuery.

Analisar

Depois de salvar os dados limpos de modo centralizado, você pode começar a analisá-los para conseguir informações. Ter os dados disponíveis no BigQuery oferece várias vantagens:

  • Você pode executar consultas em dados em quantidade superior àquela que uma API de relatórios do Google Ad Manager ou uma IU podem processar, por exemplo.
  • Você tem acesso a dados mais detalhados que nem sempre estão disponíveis nas APIs de relatórios ou na IU.
  • Você pode processar e mesclar dados de várias fontes usando uma chave comum.

No restante desta seção, abordaremos o que você pode fazer com os dados disponíveis. A seção é dividida em duas partes:

  • A análise padrão, que requer algum conhecimento básico de linguagem de consulta estruturada (SQL), concentra-se principalmente em dois tipos de análise:

    • Com a análise descritiva, é possível ver o que está acontecendo na empresa.
    • Com a análise de diagnóstico, é possível entender por que isso está acontecendo.
  • A análise com base em machine learning, que pode exigir um analista ou cientista de dados, possibilita novas análises:

    • Com a análise preditiva, é possível prever resultados usando dados históricos.
    • Com a análise prescritiva, é possível antecipar resultados e preparar a estratégia.

Análise padrão

Os produtos relacionados a anúncios podem criar gigabytes ou até terabytes de dados de registros diários, o que pode ser um desafio na hora de fazer uma análise. As ferramentas de relatórios prontas às vezes limitam quais dimensões podem ser consultadas, nem sempre oferecem as mesclagens corretas ou simplesmente não podem consultar todos os dados brutos disponíveis e, em vez disso, oferecem agregações.

As análises descritiva e diagnóstica geralmente requerem exploração, o que significa executar consultas em Big Data. Essa ferramenta exige uma arquitetura escalonável. Mas criá-la com o mínimo de sobrecarga de infra-estrutura e por um custo razoável pode ser um desafio, especialmente com recursos técnicos limitados. Uma solução é usar o BigQuery. O BigQuery é um mecanismo de armazenamento e consulta que pode executar consultas em terabytes de dados em segundos, em vez de minutos ou horas, sem a configuração do servidor.

A maneira mais fácil de executar consultas no BigQuery é usar a IU interativa. Para outras opções, consulte a página Como consultar dados.

Análise avançada e aprimoramento

Se você for um pouco mais técnico ou tiver um analista ou cientista de dados na sua equipe, tente executar algoritmos preditivos para conseguir conhecimento extra que pode ser reinserido nos seus conjuntos de dados. Algumas tarefas típicas incluem:

  • agrupamento de clientes em públicos semelhantes usando o machine learning sem supervisão;
  • previsão de números de vendas ou LTV do cliente usando regressão;
  • execução da análise de sentimento do produto (usando comentários, por exemplo).

Os algoritmos são importantes no machine learning, mas a chave para uma boa previsão é a quantidade e a qualidade dos dados usados para treinar seu modelo. Depois que o BigQuery processar os dados, você precisará de:

  • uma ferramenta interativa que possa vincular vários componentes do Google Cloud para simplificar as tarefas da ciência de dados;
  • uma plataforma de machine learning que execute treinamento e predição em escala com o mínimo de DevOps.

O AI Platform executa modelos do TensorFlow (em inglês) de maneira gerenciada e escalonável para treinamento e previsão, além de adicionar atributos como o ajuste de hiperparâmetros. O TensorFlow é uma biblioteca numérica, de software de código aberto (OSS, na sigla em inglês) originalmente lançada pelo Google.

O Datalab oferece Notebooks do Jupyter como um serviço com recursos adicionais para se conectar a produtos do Google Cloud, como o BigQuery e o Cloud Storage, ou do AI Platform ou às APIs Perception, como aAPI Cloud Natural Language . Os cientistas de dados podem usar o Datalab para executar sessões analíticas interativas e relacionar todos estes produtos. O Datalab inclui outras bibliotecas padrão, como numPy ou pandas.

No Datalab, é possível, por exemplo, usar as previsões da API Natural Language para fazer uma análise de sentimento. O histograma mostra que a maioria dos clientes tem um sentimento positivo em relação aos produtos, à marca ou a ambos.

x = pd.Series(df.avg_sentiment, name="sentiment")
fig, ax = plt.subplots()
ax.set_title("Avg. Sentiment For All Products")
ax = sns.distplot(x, ax=ax)

análise de sentimento

Visualizar

Você pode achar complicado escrever consultas SQL na IU do BigQuery ou código Python em um notebook. Considere estes exemplos:

  • Um gerente precisa de acesso rápido a painéis úteis.
  • Um analista com conhecimento técnico limitado precisa fragmentar os dados.

Com o Google Data Studio, é possível criar rapidamente painéis de negócios compartilháveis a partir do zero ou usando modelos pré-configurados. Essa abordagem tem várias vantagens:

  • Dá acesso aos dados por meio da funcionalidade de arrastar e soltar.
  • Facilita a colaboração para criar painéis significativos.
  • Permite que você compartilhe painéis pré-criados com os tomadores de decisões.

No exemplo a seguir, você confere dados de várias fontes:

  • Na linha do meio, à esquerda, é possível ver os relatórios do Google Analytics 360 e, no lado direito, do Campaign Manager.
  • Na linha superior, nas colunas centrais, o gráfico de pontos azuis mostra o engajamento do cliente em relação ao LTV.

Como exibir dados de várias fontes

Ativar

Com dados brutos em um local comum, acessíveis por meio de código e de painéis, e em uma plataforma capaz de manipular dados, muitas decisões de marketing se tornam possíveis. Por exemplo:

  • Análises descritivas sobre como a frequência afeta a conversão por usuário por campanha. Ter essas informações é útil quando você cria campanhas de remarketing para adaptar a frequência a uma lista específica de usuários. O acesso do BigQuery aos dados brutos do Campaign Manager torna isso possível.

  • Análise de diagnóstico para compreender o impacto de uma campanha e o comportamento do site nas vendas. Para ativar essas análises, use instruções SQL para criar junções de IDs em Big Data.

  • Análise preditiva em LTV para usuários específicos. Ao prever o valor de grupos específicos de usuários, é possível executar campanhas de marketing para aumentar as vendas. Um exemplo seria o gráfico de pontos azuis no diagrama anterior, em que é possível descobrir que um grupo de usuários com engajamento de marca limitado tem um alto potencial de compra se eles estiverem mais engajados. Essas informações são obtidas por meio da junção de dados e do machine learning para criar segmentos de clientes e prever um valor de LTV.

  • Análise prescritiva do sentimento do produto. Ao analisar a evolução das classificações e comentários de texto, você ajuda a evitar a segmentação incorreta, prevendo como um determinado grupo de usuários receberá um produto com determinadas características. Essa tarefa pode ser realizada usando análise de sentimento e segmentação de clientes, por exemplo.

A seguir