Pipeline de campagne de ciblage

Ce tutoriel explique comment utiliser Cloud Data Fusion pour nettoyer, transformer et traiter les données client afin de sélectionner des candidats pour une campagne de ciblage.

Scénario

Vous souhaitez créer des supports marketing personnalisés pour une promotion de campagne en cours et vous aimeriez les distribuer directement dans les boîtes aux lettres personnelles de vos clients.

Votre campagne comporte deux contraintes :

  • L'emplacement : vous livrez uniquement aux clients en Californie, à Washington et en Oregon.
  • Le coût : pour économiser du carburant, vous livrez aux domiciles de clients facilement accessibles. Vous ne livrez qu'aux clients qui habitent dans des avenues.

Ce tutoriel vous explique comment générer la liste des adresses de clients pour la campagne. Dans ce tutoriel, vous allez effectuer les opérations suivantes :

  1. Nettoyer les données client : filtrer les clients qui habitent dans une rue située en Californie, à Washington ou en Oregon.
  2. Créer un pipeline qui effectue les opérations suivantes :
    • Regroupe les données client filtrées via un ensemble de données public contenant des abréviations d'état.
    • Stocke les données nettoyées et regroupées dans une table BigQuery que vous pouvez interroger (à l'aide de l'interface utilisateur Web BigQuery) ou analyser (avec Data Studio).

Objectifs

  • Connecter Cloud Data Fusion à deux sources de données
  • Appliquer des transformations de base
  • Regrouper les deux sources de données
  • Écrire les données de sortie dans un récepteur

Coûts

Ce tutoriel utilise des composants facturables de Google Cloud, dont :

Chaque exécution de ce tutoriel exécute un cluster Dataproc à trois nœuds (un maître, deux nœuds de calcul) qui s'exécutent pendant environ six minutes pour écrire environ 6 Mo de données dans BigQuery. Étant donné que vous allez juste stocker une petite quantité de données dans BigQuery, nous n'allons pas tenir compte du coût de BigQuery dans le cadre de cette estimation. Sur la base de ces chiffres, le coût d'une seule exécution de ce pipeline peut être évalué comme suit :

coût total = coût de Cloud Data Fusion + coût de Dataproc

Chacun des composants de cette formule peut être divisé comme suit :

Coût de Cloud Data Fusion = (temps * taux de Cloud Data Fusion)

Coût Dataproc = (durée x nombre de VM x) (taux Compute Engine + taux Dataproc)

Prenons l'exemple de cette estimation de coût pour une tâche de 6 minutes utilisant le profil Compute Engine par défaut dans Cloud Data Fusion, avec 3 VM n1-standard4 dans la région us-west1 :

  • durée = 0,1 heure
  • tarif Data Fusion = 1,8 $/heure
  • nombre de VM = 3
  • tarif Compute Engine = 0,19 $/heure/VM
  • tarif Dataproc = 0,01 $/heure/VM

L'utilisation de ces valeurs dans la formule de coût donne le coût total suivant pour cet exemple :

(0,1 * 1,8) + (0,1 * 3 * (0,1900 + 0,01)) = 0,24 $ (24 cents)

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.

  4. Activer les API Cloud Data Fusion, Cloud Storage, BigQuery and Cloud Dataproc.

    Activer les API

  5. Créez une instance Cloud Data Fusion.

Préparer les données client

Ce tutoriel nécessite les deux ensembles de données d'entrée suivants, tous deux fournis avec votre instance Cloud Data Fusion :

  • Exemples de données client : fichier CSV nommé customers.csv.
  • Abréviations d'États : table BigQuery nommée state_abbreviations.

Charger les données client

  1. Accédez à l'interface utilisateur Web de Cloud Data Fusion.
  2. Accédez à la page Wrangler de l'interface utilisateur Web.
  3. Dans le panneau de gauche, sous Google Cloud Storage, cliquez sur Exemples de buckets.
  4. Cliquez sur campaign-tutorial.
  5. Cliquez sur customers.csv. Les données client s'affichent.

Nettoyer les données client

Analysez les données client sous forme de table, définissez le schéma et filtrez les données client pour ne présenter que l'audience cible dont vous avez besoin.

Analyser les données

  1. Cliquez sur la liste déroulante de la colonne Corps.
  2. Sélectionnez Analyser > CSV.
  3. Une fois le délimiteur sélectionné comme virgule, cliquez sur Appliquer. image
  4. Les données étant divisées en plusieurs colonnes, la colonne Corps d'origine n'est plus nécessaire. Cliquez sur la liste déroulante de la colonne body (corps), puis sélectionnez Delete column (Supprimer la colonne).

Définir le schéma

Définissez le schéma des données en attribuant des noms appropriés aux colonnes de la table. Au lieu de bodyXX, renommez les colonnes pour capturer les informations qu'elles présentent.

  1. Dans l'onglet Colonnes à droite, cliquez sur la liste déroulante Noms de colonnes et sélectionnez Tout définir.
  2. Dans la boîte de dialogue Définir des noms de colonnes de manière groupée, saisissez le texte suivant, séparé par des virgules : Name,StreetAddress,City,State,Country.
  3. Cliquez sur Appliquer.

Filtrer les données

Filtrez les données pour n'afficher que les clients résidant en Californie, en Oregon ou à Washington. Pour ce faire, supprimez toutes les lignes contenant des valeurs autres que ces trois États.

  1. Cliquez sur la liste déroulante de la colonne État.
  2. Sélectionnez Filtre.
  3. Dans la fenêtre de filtre, procédez comme suit :

    1. Cliquez sur Conserver les lignes.
    2. Dans le menu déroulant Si, sélectionnez la valeur correspond à l'expression régulière.
    3. Saisissez l'expression régulière suivante : ^(California|Oregon|Washington)$.
    4. Cliquez sur Appliquer.

    Les valeurs de la colonne État sont "Californie", "Oregon" ou "Washington".

Filtrez les données pour n'afficher que les clients qui résident sur des avenues. Pour ce faire, ne conservez que les adresses contenant la chaîne "avenue".

  1. À gauche de la colonne StreetAddress, cliquez sur la flèche vers le bas et sélectionnez Filtrer.
  2. Dans le menu déroulant Si, sélectionnez Valeur contient, puis saisissez Avenue.
  3. Sélectionnez Ignorer le cas.

Avant d'effectuer des tâches de traitement en parallèle sur l'intégralité de votre ensemble de données, Wrangler n'affiche que les 1 000 premières valeurs de votre ensemble de données. Comme vous avez filtré certaines données, seuls quelques clients restent affichés dans Wrangler.

Créer le pipeline

Vous avez nettoyé vos données et exécuté des transformations sur un sous-ensemble de vos données. Vous pouvez maintenant créer un pipeline par lots afin d'exécuter des transformations sur l'intégralité de votre ensemble de données.

  1. Dans Wrangler, en haut à droite, cliquez sur Créer un pipeline.
  2. Sélectionnez Pipeline par lot. Vous êtes redirigé vers la page Pipeline Studio.
  3. En haut à gauche, assurez-vous que Pipeline de données - Lot est affiché comme type de pipeline.

Dans le canevas de Pipeline Studio, un nœud source GCSFile est connecté à un nœud Wrangler.

Toutes les transformations que vous avez appliquées dans la vue Wrangler apparaissent dans le nœud Wrangler du canevas Pipeline Studio. Pour afficher les transformations que vous avez appliquées, maintenez le pointeur de la souris sur le nœud Wrangler et cliquez sur Propriétés. Sous Directives, les transformations que vous avez appliquées apparaissent.

Vous pouvez appliquer d'autres transformations en cliquant sur Wrangle. Cela vous ramène à la page Wrangler. Lorsque vous revenez aux propriétés du nœud dans la vue Pipeline Studio, la nouvelle transformation que vous avez ajoutée s'affiche.

Par exemple, vous réalisez que la colonne Pays n'est pas nécessaire, car la valeur est toujours "États-Unis". Pour supprimer la colonne, procédez comme suit :

  1. Cliquez sur Wrangle.
  2. Cliquez sur la flèche vers le bas à côté de Pays, puis sélectionnez Supprimer la colonne.
  3. Cliquez sur Appliquer. Cette action ferme la vue Wrangler et retourne à la fenêtre "Propriétés" de Wrangler dans Pipeline Studio. Dans la section Directives, drop Country apparaît.
  4. Cliquez sur le bouton X.

Abréger les noms d'État

Le système de navigation de votre véhicule de livraison ne reconnaît que les adresses contenant des noms d'État abrégés (CA, et non Californie). Actuellement, vos données client contiennent des noms d'État complets.

La table publique BigQuery state_abbreviations contient deux colonnes : une avec les noms d'État complets et une avec les noms d'État abrégés. Vous utiliserez cette table pour mettre à jour les noms d'État dans vos données client.

Afficher les données de noms d'État dans BigQuery

  1. Dans un onglet distinct, ouvrez l'interface utilisateur de BigQuery dans Cloud Console.

    Accéder à l'interface utilisateur de BigQuery

  2. Saisissez la requête suivante dans l'éditeur de requête et cliquez sur EXÉCUTER.

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    

Accéder à la table BigQuery

Ajoutez une source dans votre pipeline qui accédera à cette table BigQuery state_abbreviations.

  1. De retour dans l'onglet Cloud Data Fusion, dans Pipeline Studio, dans la section des plug-ins située sur la gauche, cliquez sur Source.
  2. Cliquez sur BigQuery.

    Un nœud source BigQuery apparaît sur le canevas, avec les deux autres nœuds.

  3. Maintenez le pointeur de la souris sur le nœud source BigQuery, puis cliquez sur Propriétés.
    1. Sous Nom de référence, saisissez state_abbreviations.
    2. Sous Nom de l'ID du projet de l'ensemble de données, saisissez dis-user-guide.
    3. Sous Ensemble de données, saisissez campaign_tutorial.
    4. Sous Table, saisissez state_abbreviations.
  4. Renseignez le schéma de la table à partir de BigQuery en cliquant sur Obtenir le schéma.
  5. Cliquez sur le bouton X.

Regrouper les deux sources de données

Regroupez les deux sources de données, les données client et les abréviations d'États, pour générer un résultat contenant des données client avec des noms d'État abrégés.

  1. Dans Pipeline Studio, dans la section des plug-ins située à gauche, cliquez sur Analytics.
  2. Cliquez sur Joiner.

    Un nœud Joiner, représentant une action semblable à une jointure SQL, apparaît sur le canevas.

  3. Connectez le nœud Wrangler et le nœud BigQuery au nœud Joiner : faites glisser une flèche de connexion sur le bord droit du nœud source et déposez-la sur le nœud de destination.
  4. Maintenez le pointeur de la souris sur le nœud Joiner et cliquez sur Propriétés.
    1. Sous Jointure, développez Wrangler et BigQuery.
      1. Désélectionnez le champ State (État) sous Wrangler, et le champ name (Nom) sous BigQuery, puisque vous ne souhaitez utiliser que les versions abrégées. et non le nom complet de l'état.
      2. Sous BigQuery, remplacez l'alias du champ abréviation par State afin de pouvoir l'identifier facilement.
    2. Sous Type de jointure, conservez la valeur Extérieur. Sous Entrées requises, sélectionnez Wrangler.
    3. Sous Condition de jointure, définissez la condition de jointure pour associer la colonne State du nœud Wrangler à la colonne name du nœud BigQuery.
    4. Générez le schéma de la jointure obtenue. Cliquez sur Obtenir un schéma.
    5. Cliquez sur le bouton X.

Stocker le résultat dans BigQuery

Stockez le résultat de votre pipeline dans une table BigQuery. L'emplacement de stockage de vos données s'appelle un récepteur.

  1. Dans Pipeline Studio, dans la section des plug-ins située à gauche, cliquez sur Récepteur.
  2. Cliquez sur Table BigQuery.
  3. Connectez le nœud Joiner au nœud BigQuery Table.
  4. Maintenez le pointeur de la souris sur le nœud BigQuery Table et cliquez sur Propriétés.
    1. Sous Nom de référence, saisissez customer_data_abbreviated_states.
    2. Sous Ensemble de données, saisissez dis_user_guide.
    3. Sous Table, sélectionnez customer_data_abbreviated_states.
    4. Cliquez sur le bouton X.

Déployer et exécuter le pipeline

  1. Dans Pipeline Studio, cliquez sur Nommer votre pipeline, puis saisissez CampaignPipeline.
  2. Dans l'angle supérieur droit, cliquez sur Déployer.
  3. Une fois le déploiement terminé, cliquez sur Exécuter. L'exécution de votre pipeline peut prendre quelques minutes. En attendant, vous pouvez observer l'état de la transition du pipeline, du provisionnement au démarrage en exécution à Annuler la gestion sur Réussite.

Afficher les résultats

  1. Interrogez la table campaign_targets dans l'interface utilisateur de BigQuery.

    Accéder à l'interface utilisateur de BigQuery

  2. Mettez à jour le nom du projet dans la requête ci-dessous avec votre propre nom de projet.

Nettoyer

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et les ressources individuelles.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. Dans Cloud Console, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Supprimer l'instance Cloud Data Fusion

Suivez ces instructions pour supprimer votre instance Cloud Data Fusion.

Supprimer l'ensemble de données BigQuery

Pour supprimer l'ensemble de données BigQuery que vous avez créé dans le cadre de ce tutoriel, procédez comme suit :

  1. Dans Cloud Console, accédez à la page BigQuery.

    Accéder à la page BigQuery

  2. Sélectionnez l'ensemble de données dis_user_guide.
  3. Cliquez sur SUPPRIMER L'ENSEMBLE DE DONNÉES.

Étape suivante