Créer un entrepôt de données marketing

Cet article explique comment collecter des données provenant de plusieurs sources pour créer des listes de remarketing qui n'étaient pas disponibles auparavant. De telles listes vous permettent de capturer une vue globale de vos clients. En analysant la manière dont les clients interagissent avec votre marque, vous stimulez la valeur vie client (LTV) et favorisez la production d'insights marketing plus approfondis.

Le rôle traditionnel du responsable marketing, axé sur l'exécution de campagnes, évolue vers un engagement pertinent en temps réel. Alors que l'ancien paradigme reposait sur la capture de données et l'analyse rétroactive des performances, le responsable marketing actuel privilégie les insights client basés sur des données et une stratégie axée sur les performances, ainsi qu'un ciblage proactif et réfléchi.

Cette nouvelle approche apporte des défis inédits. Par exemple, la baisse continue des coûts de stockage favorise une croissance exponentielle de données, mais le rassemblement physique de ces données à des fins d'analyse reste problématique. Les facteurs de complication sont de plusieurs ordres :

  • Données d'origines et de formats divers, souvent cloisonnées
  • Trop d'outils différents pour l'analyse et pour l'ETL (extraction, transformation et chargement), qui peuvent s'avérer difficiles à mettre en œuvre
  • Rareté des ressources techniques
  • Manque de flexibilité des processus de test et de prototypage

Cet article examine les facteurs ci-dessus et vous montre comment créer un workflow exploitable avec vos propres données. Il présuppose une connaissance de base du langage SQL (Structured Query Language). Pour les sections liées au machine learning, vous aurez éventuellement besoin de l'aide d'un analyste de données ou d'un data scientist.

Cas d'utilisation

L'entreprise fictive évoquée dans cet exemple est un détaillant de cosmétiques en ligne dont vous êtes le directeur marketing. Vous souhaitez obtenir des informations clés tout en réduisant au minimum les interactions techniques avec les équipes DevOps. Bien que les ressources informatiques dont vous disposez soient limitées, vous pouvez compter sur l'aide d'un data scientist.

Votre principal défi est d'optimiser le budget marketing via un suivi du retour sur investissement des dépenses publicitaires, mais vous êtes confronté à plusieurs difficultés liées aux données :

  • Les données sont dispersées entre différentes sources, dont le produit Google Analytics 360, un système de gestion de la relation client (CRM) et le produit Campaign Manager.
  • Les données sur les clients et les ventes sont stockées dans un système CRM.
  • Certaines données ne sont pas dans un format interrogeable.
  • Il n'existe aucun outil commun pour analyser les données et partager les résultats avec le reste de l'entreprise.

L'approche décrite dans cet article répond à ces préoccupations en esquissant plusieurs solutions :

  • Recueillir les données dans un emplacement de stockage commun
  • Transformer ces données de manière à pouvoir les interroger et pratiquer des jointures entre les différentes sources
  • Obtenir l'accès aux variables de rapport qui ne sont pas disponibles dans les API de création de rapports standards
  • Recourir à des tâches de machine learning pour découvrir des groupes d'utilisateurs

L'exécution de ces tâches vous permettra de créer des listes de remarketing qui n'étaient pas disponibles auparavant.

Architecture

Le diagramme d'architecture suivant illustre le processus permettant de passer de l'ingestion de données provenant de diverses sources à la prise de décisions de remarketing.

De l'ingestion de données aux décisions de remarketing
Figure 1 : Passage de l'ingestion de données à la prise de décisions de remarketing
  • Les ensembles de données dont l'intitulé est grisé dans ce schéma sont ceux qui ne font pas partie des cas d'utilisation spécifiques décrits dans cet article, mais que vous pourriez traiter de la même manière. Par exemple, cet article explique comment exécuter des requêtes Google Ad Manager ou YouTube sur des données Campaign Manager, mais vous pourriez en faire autant pour les données exportées vers BigQuery.
  • Le schéma comprend une section intitulée More advanced (Traitements avancés). Une fois vos données consolidées dans un emplacement centralisé, un data scientist peut vous aider à les exploiter pour des traitements plus avancés tels que le machine learning.

Exigences fonctionnelles

Cette section décrit les options technologiques qui s'offrent à vous pour les exigences fonctionnelles suivantes :

  • Collecter et stocker les données
  • Transformer les données
  • Analyser les données
  • Visualiser les données
  • Activer les données

Recueillir et stocker des données

La première étape pour générer des informations consiste à consolider vos données dans un emplacement central. Choisissez une technologie qui vous permettra de collecter efficacement des informations auprès des principaux canaux marketing et sources de données dont vous disposez, à commencer par les données Google.

BigQuery offre des fonctionnalités de stockage et un moteur de requêtes, et peut ingérer des données issues de sources diverses. Dans cet article, les données à collecter proviennent de ces différentes sources :

Le processus de collecte de données
Figure 2 : Recueillir et consolider les données.

Transformer

Cette section couvre la préparation des données pour l'analyse, ce qui comprend les opérations de nettoyage et de reformatage visant à assurer la cohérence interne des grands ensembles de données. Vous tenez à ce que vos analystes puissent nettoyer les données avec peu ou pas de codage – par exemple, via un outil visuel capable de gérer le scaling et l'exécution de transformations distribuées.

Vous pouvez faire appel à BigQuery pour effectuer une transformation par lot d'une table à une autre ou à l'aide d'une vue. Pour les transformations plus avancées, il peut cependant être préférable d'utiliser un outil visuel permettant de soumettre plusieurs téraoctets de données à un pipeline de traitement complexe avec un minimum de programmation.

Supposons que vous exportiez une chaîne clé-valeur telle que le champ Other_data dans la table d'activité de Campaign Manager :

key1=value1&key2=value2&...keyN=valueN

Vous avez besoin de scinder cette chaîne en une table de colonnes et de valeurs telle que celle-ci :

key1 | key2 | … | keyN
----------------------
val1 | val2 | … | valN

Le fait de disposer les noms de clé en colonnes facilite les jointures avec d'autres tables existantes. Les clés peuvent contenir des informations personnalisées telles que l'ID utilisateur attribué dans votre système CRM, la liste des produits ou les données UTM (Urchin Tracking Module).

Cloud Dataprep by Trifacta offre une fonctionnalité appelée Recipes (Recettes) qui vous permet de définir des transformations. Une recette est une séquence de tâches exécutées en arrière-plan dans un environnement distribué.

Recette Cloud Dataprep

Pendant que vous définissez une recette, Cloud Dataprep by Trifacta vous présente un aperçu des données telles qu'elles se présenteront. Dans la capture d'écran qui suit, notez que de nouvelles colonnes sont insérées dans les données transformées lors de leur stockage – par exemple, "treatments" (traitements), "products" (produits), "concerns" (préoccupations) et "membership" (appartenance).

stocker des données transformées

Cloud Dataprep by Trifacta a également l'avantage de prendre en charge diverses sources d'entrée et de sortie, dont BigQuery, ce qui en fait une bonne option pour cette solution. Cloud Dataprep by Trifacta est capable de lire l'ensemble de données BigQuery importé depuis Campaign Manager, puis de réenregistrer les résultats dans BigQuery.

Analyser

Une fois que vous avez sauvegardé les données nettoyées dans un emplacement centralisé, vous pouvez commencer à les analyser pour en extraire des renseignements. La mise à disposition de ces données dans BigQuery offre plusieurs avantages :

  • Vous avez la possibilité d'exécuter des requêtes sur des données dont le volume est supérieur à ce que vous pourriez traiter, par exemple, via une interface utilisateur ou une API de création de rapports Google Ad Manager.
  • Vous accédez aux données avec un niveau de détail qui n'est pas toujours disponible dans l'interface utilisateur ou les API de création de rapports.
  • Vous pouvez traiter et joindre des données provenant de plusieurs sources à l'aide d'une clé commune.

Le reste de cette section décrit ce que vous avez la possibilité de faire avec les données disponibles. Cette partie comprend deux volets :

  • Le volet Analyse standard, qui nécessite des connaissances de base du langage SQL, se concentre principalement sur deux types d'analyse :

    • L'analyse descriptive, qui consiste à observer ce qui se produit dans votre activité
    • l'analyse diagnostique, qui vous permet de comprendre pourquoi cela se produit.
  • Le volet Analyse basée sur le machine learning, qui peut nécessiter l'aide d'un analyste de données ou d'un data scientist, ouvre la voie à de nouvelles formes d'analyses telles que :

    • l'Analyse prédictive, qui cherche à prédire des résultats à partir de données historiques ;
    • l'analyse prescriptive, qui vous permet d'anticiper les résultats et de préparer votre stratégie.

Analyse standard

Les produits liés aux annonces publicitaires peuvent générer des gigaoctets ou même des téraoctets de données de journal quotidiennes, dont l'analyse peut représenter un véritable défi. Les outils de génération de rapports prêts à l'emploi posent parfois des restrictions sur les variables interrogeables, ne proposent pas toujours les jointures appropriées ou peuvent s'avérer tout simplement incapables d'interroger la totalité des données brutes disponibles, qu'ils proposent donc de remplacer par des agrégats.

L'analyse descriptive et l'analyse diagnostique nécessitent généralement une exploration, ce qui implique d'exécuter des requêtes à l'échelle du big data. Un tel outil nécessite une architecture évolutive, qui peut cependant s'avérer difficile à mettre en place sans alourdir sensiblement l'infrastructure ni faire exploser les coûts, à fortiori lorsque les ressources techniques sont limitées. Une solution envisageable consiste à utiliser BigQuery, un moteur de stockage et de requêtes capable d'interroger des téraoctets de données en quelques secondes au lieu de plusieurs minutes ou plusieurs heures, sans aucune configuration de serveur.

Pour exécuter des requêtes dans BigQuery, le plus simple est de passer par l'interface utilisateur interactive. Vous disposez toutefois d'autres options, décrites sur la page de présentation du processus d'interrogation des données.

Analyse avancée et enrichissement

Si vous possédez un profil un peu plus technique ou que vous comptez un analyste de données ou un data scientist dans votre équipe, essayez d'exécuter des algorithmes prédictifs pour générer des connaissances supplémentaires qui pourront ensuite être réingérées dans vos ensembles de données. Voici quelques tâches courantes à cet égard :

  • Réaliser un clustering des clients en audiences semblables par machine learning non supervisé
  • Prédire les chiffres de vente ou la valeur vie client en procédant par régression
  • Effectuer une analyse des sentiments sur un produit – par exemple, à partir des commentaires

Bien que les algorithmes jouent un rôle important dans le machine learning, la clé de la réussite en matière de prédiction réside dans la quantité et la qualité des données sur lesquelles vous pouvez entraîner votre modèle. Une fois que BigQuery a ingéré les données, vous avez besoin de deux choses :

  • Un outil interactif permettant de relier divers composants de GCP pour simplifier les tâches de science des données
  • Une plate-forme de machine learning capable d'effectuer des tâches d'entraînement et de prédiction à grande échelle avec un minimum d'intervention de l'équipe DevOps

Cloud Machine Learning Engine permet d'exécuter des modèles TensorFlow de manière gérée et évolutive aussi bien pour l'entraînement que pour la prédiction, tout en offrant des fonctionnalités supplémentaires comme le réglage des hyperparamètres. TensorFlow est une bibliothèque numérique de logiciels Open Source de premier plan qui a été publiée à l'origine par Google.

Cloud Datalab propose des notebooks Jupyter en tant que service, avec des fonctionnalités supplémentaires permettant de se connecter à des produits GCP tels que BigQuery, Cloud Storage ou Cloud Machine Learning Engine, ou encore aux API de perception telles que Cloud Natural Language. Les data scientists peuvent s'appuyer sur Cloud Datalab pour exécuter des sessions d'analyse interactives et faire le lien entre tous ces produits. Cloud Datalab comprend d'autres bibliothèques standards telles que NumPy ou Pandas.

Cloud Datalab vous permet par exemple d'utiliser des prédictions en langage naturel pour effectuer une analyse des sentiments. L'histogramme ci-dessous montre qu'une majorité de clients ont un sentiment positif à l'égard des produits, de la marque ou des deux.

x = pd.Series(df.avg_sentiment, name="sentiment")
fig, ax = plt.subplots()
ax.set_title("Avg. Sentiment For All Products")
ax = sns.distplot(x, ax=ax)

analyse des sentiments

Visualiser

Vous trouverez probablement fastidieux de rédiger des requêtes SQL dans l'interface utilisateur de BigQuery ou dans un notebook contenant du code Python. Considérez ces deux exemples :

  • Un responsable a besoin d'accéder rapidement à des tableaux de bord exploitables.
  • Un analyste doté de connaissances techniques limitées a besoin de manipuler des données.

Avec Google Data Studio, vous pouvez créer rapidement des tableaux de bord d'entreprise partageables, en partant de zéro ou à l'aide de modèles préconfigurés. Cette approche présente plusieurs avantages :

  • Elle permet de manipuler les données par glisser-déposer.
  • Elle facilite la collaboration et permet ainsi de créer des tableaux de bord plus pertinents.
  • Elle vous offre la possibilité de partager des tableaux de bord prédéfinis avec les décideurs.

Voici un exemple de tableau de bord présentant des données issues de plusieurs sources :

  • À mi-hauteur, vous distinguez, sur la gauche, des rapports Google Analytics 360 et, sur la droite, des rapports Campaign Manager.
  • Dans la partie supérieure, en colonne centrale, le nuage de points bleu établit la corrélation entre l'engagement client et la valeur vie client.

Afficher des données provenant de plusieurs sources

Activer

Une fois les données brutes rassemblées dans un emplacement commun et accessibles par l'intermédiaire de code ou de tableaux de bord, le tout sur une plate-forme permettant de manipuler des données, de nombreuses décisions marketing deviennent possibles. En voici quelques exemples :

  • Analyse descriptive montrant l'incidence de la fréquence sur le taux de conversion par utilisateur et par campagne. Lors de la création de campagnes de remarketing, de telles informations vous aident à définir une fréquence adaptée à une liste d'utilisateurs spécifique. L'obtention de ces informations est rendue possible par l'accès de BigQuery aux données brutes de Campaign Manager.

  • Analyse diagnostique permettant de comprendre l'impact d'une campagne et du comportement sur un site Web en termes de ventes. Pour activer ce type d'analyse, utilisez des instructions SQL pour créer des jointures d'ID à l'échelle du big data.

  • Analyse prédictive de la valeur vie client d'utilisateurs spécifiques. La possibilité de prédire la valeur de certains groupes d'utilisateurs vous permet de lancer des campagnes marketing pour augmenter les ventes. À titre d'exemple, le nuage de points bleu mentionné précédemment pourrait révéler qu'un groupe d'utilisateurs dont l'engagement envers la marque est limité présente un potentiel d'achat élevé dès lors que l'engagement des utilisateurs est amélioré. Vous obtenez ces informations en joignant des données et en faisant appel au machine learning pour créer des segments de clientèle et prédire le montant de la valeur vie client.

  • Analyse prescriptive des sentiments sur un produit. En analysant l'évolution des commentaires écrits et des notes, vous pouvez prévenir des erreurs de ciblage en prédisant la façon dont un groupe d'utilisateurs donné recevra un produit présentant certaines caractéristiques. Une méthode possible pour y parvenir est de combiner analyse des sentiments et segmentation de la clientèle.

Étapes suivantes

Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…