Créer un pipeline de campagne cible

Découvrez comment utiliser Cloud Data Fusion pour nettoyer, transformer et traiter les données client afin de sélectionner des candidats pour une campagne cible.


Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud, cliquez sur Visite guidée :

Visite guidée


Scénario

Vous souhaitez créer des supports marketing personnalisés pour une promotion de campagne en cours, et que vous souhaitez distribuer les documents directement aux boîtes aux lettres personnelles de vos clients.

Votre campagne comporte deux contraintes :

  • L'emplacement : vous livrez uniquement aux clients en Californie, à Washington et en Oregon.
  • Coût: pour économiser du carburant, vous livrez vos produits à des clients rapidement accessibles. domiciles. Vous ne livrez qu'aux clients qui habitent dans des avenues.

Ce tutoriel vous explique comment générer la liste des adresses de clients pour la campagne. Dans ce tutoriel, vous allez effectuer les opérations suivantes :

  1. Nettoyer les données client : filtrer les clients qui habitent dans une rue située en Californie, à Washington ou en Oregon.
  2. Créer un pipeline qui effectue les opérations suivantes :

    • Regroupe les données client filtrées via un ensemble de données public contenant des abréviations d'état.
    • Stocke les données nettoyées et regroupées dans une table BigQuery que vous pouvez interroger (à l'aide de l'interface Web BigQuery) ou analyser (avec Looker Studio).

Objectifs

  • Connecter Cloud Data Fusion à deux sources de données
  • Appliquer des transformations de base
  • Regrouper les deux sources de données
  • Écrire les données de sortie dans un récepteur

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.

    Enable the APIs

  7. Créez une instance Cloud Data Fusion.
    Dans ce tutoriel, nous partons du principe que vous utilisez le service Compute Engine par défaut de service.

Gérer les autorisations

Créez et attribuez les rôles et autorisations personnalisés nécessaires.

Créer un rôle personnalisé et ajouter des autorisations

  1. Dans la console Google Cloud, accédez à la page Rôles.

    Accéder à la page "Rôles"

  2. Cliquez sur Créer un rôle.

  3. Dans le champ Title (Titre), saisissez Custom Role-Tutorial.

  4. Cliquez sur Ajouter des autorisations.

  5. Dans la fenêtre Ajouter des autorisations, sélectionnez les autorisations suivantes et cliquez sur Ajouter :

    • bigquery.datasets.create
    • bigquery.jobs.create
    • storage.buckets.create
  6. Cliquez sur Créer.

Attribuer un rôle personnalisé au compte de service Compute Engine par défaut

  1. Accédez à la page Instances de Cloud Data Fusion :

    Créer une instance

  2. Cliquez sur le nom de votre instance.

  3. Notez le compte de service Dataproc par défaut. La page de détails de l'instance contient ces informations.

    Le format du nom du compte de service Dataproc est le suivant :

    CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com.

    En savoir plus sur les comptes de service Dataproc

  4. Accédez à la page IAM :

    Accéder à la page "Rôles"

  5. Dans la barre Filtre, saisissez le nom de votre compte de service Dataproc par défaut.

  6. Pour votre compte de service Compute Engine par défaut, cliquez sur Modifier.

  7. Cliquez sur Ajouter un autre rôle.

  8. Dans le champ Sélectionnez un rôle, choisissez Tutoriel des rôles personnalisés.

  9. Cliquez sur Enregistrer.

  10. Assurez-vous que le compte de service dispose déjà du rôle d'exécuteur Cloud Data Fusion.

Préparer les données client

Ce tutoriel nécessite les deux ensembles de données d'entrée suivants, tous deux fournis avec votre instance Cloud Data Fusion :

  • Exemples de données client : fichier CSV nommé customers.csv.
  • Abréviations d'États : table BigQuery nommée state_abbreviations.

Charger les données client

  1. Accédez à la page Instances de Cloud Data Fusion :

    Accéder à la page "Instances"

  2. Cliquez sur Afficher l'instance pour l'instance Cloud Data Fusion que vous utilisez. L'interface Web de Cloud Data Fusion s'ouvre dans un nouvel onglet.

  3. Cliquez sur Wrangler. La page Wrangler s'ouvre.

  4. Dans le volet Connexions, sélectionnez GCS > Exemples de buckets.

  5. Cliquez sur campaign-tutorial.

  6. Cliquez sur customers.csv.

  7. Dans la fenêtre Options d'analyse, spécifiez les éléments suivants :

    • Format : csv
    • Activer la valeur entre guillemets : False
    • Utiliser la première ligne pour l'en-tête : False
    • Encodage de fichier : UTF-8
  8. Cliquez sur Confirmer. Les données client sont chargées dans un nouvel onglet dans Wrangler.

    Données client chargées

Nettoyer les données client

Contient deux sous-tâches :

  • Définir le schéma
  • Filtrer les données client pour ne présenter que l'audience cible dont vous avez besoin

Définir le schéma

Définissez le schéma des données en attribuant des noms appropriés aux colonnes de la table. Pour attribuer des noms plus descriptifs aux colonnes, telles que body_1 et body_2, procédez comme suit :

  1. Dans le volet de droite, cliquez sur l'onglet Colonnes.
  2. Cliquez sur la liste déroulante Noms de colonnes et sélectionnez Tout définir.
  3. Dans la boîte de dialogue Définir des noms de colonnes de manière groupée, saisissez les noms de colonnes suivants, séparés par une virgule :

    Name,StreetAddress,City,State,Country
    
  4. Cliquez sur Appliquer.

Filtrer les données

Filtrez les données pour n'afficher que les clients résidant en Californie, en Oregon ou à Washington.

Supprimez toutes les lignes contenant des valeurs autres que ces états :

  1. Cliquez sur la liste déroulante de la colonne État, puis sélectionnez Filtrer.
  2. Dans la fenêtre de filtre, procédez comme suit :

    1. Cliquez sur Conserver les lignes.
    2. Cliquez sur la liste déroulante Si, puis sélectionnez la valeur correspond à l'expression régulière.
    3. Saisissez l'expression régulière suivante :

      ^(California|Oregon|Washington)$
      
    4. Cliquez sur Appliquer.

    Les valeurs de la colonne État sont Californie, Oregon ou Washington.

Filtrez les données pour n'afficher que les clients qui résident sur des avenues. Conservez uniquement les adresses contenant la chaîne Avenue :

  1. Cliquez sur la liste déroulante de la colonne StreetAddress, puis sélectionnez Filtrer.
  2. Dans la fenêtre de filtre, procédez comme suit :
    1. Cliquez sur Conserver les lignes.
    2. Cliquez sur liste déroulante Si, sélectionnez la valeur contient et saisissez Avenue.
    3. Sélectionnez Ignore case (Ignorer le cas).
    4. Cliquez sur Appliquer.

Avant d'effectuer des tâches de traitement en parallèle sur l'intégralité de votre ensemble de données, Wrangler n'affiche que les 1 000 premières valeurs de votre ensemble de données. Comme vous avez filtré certaines données, seuls quelques clients restent affichés dans Wrangler.

Créer un pipeline de traitement par lot

Vous avez nettoyé vos données et exécuté des transformations sur un sous-ensemble de vos données. Vous pouvez maintenant créer un pipeline par lots afin d'exécuter des transformations sur l'intégralité de votre ensemble de données.

Cloud Data Fusion traduit le pipeline que vous créez dans Studio en programme Apache Spark qui exécute des transformations en parallèle sur un cluster Dataproc éphémère. Ce processus vous permet des transformations complexes sur de grandes quantités de données dans un environnement de manière fiable, sans avoir à gérer l'infrastructure.

  1. Sur la page "Wrangler", cliquez sur Créer un pipeline.
  2. Sélectionnez Pipeline par lot. La page Studio s'ouvre.
  3. Sur la page Studio, un nœud source GCSFile est connecté à un nœud Wrangler.

    Nœud GCSFile connecté au nœud Wrangler

    Les transformations que vous avez appliquées sur la page Wrangler apparaissent dans le nœud Wrangler de la page Studio.

  4. Pour afficher les transformations que vous avez appliquées, maintenez le pointeur sur le nœud Wrangler et cliquez sur Propriétés.

    Les transformations que vous avez appliquées figurent dans les directives.

    Afficher les transformations appliquées

  5. Cliquez sur Valider.

  6. Cliquez sur Fermer.

Vous pouvez appliquer d'autres transformations en cliquant sur Wrangle, ce qui vous ramènera en arrière à la page Wrangler. La transformation que vous avez ajoutée s'affiche dans Studio .

Par exemple, vous vous rendez compte que la colonne Country n'est pas nécessaire, car la valeur est toujours USA. Pour supprimer la colonne, procédez comme suit :

  1. Cliquez sur Wrangle.
  2. Cliquez sur la flèche vers le bas à côté de Pays, puis sélectionnez Supprimer la colonne.
  3. Cliquez sur Appliquer. La page Wrangler se ferme et la fenêtre "Wrangler Properties" (Propriétés Wrangler) s'ouvre sur la page Studio. Dans les directives, drop Country apparaît.
  4. Cliquez sur Fermer.

Abréger les noms d'État

Le système de navigation de votre véhicule de livraison ne reconnaît que les adresses contenant des noms d'État abrégés (Californie, et non la Californie), et vos données client contiennent les noms d'État complets.

La table publique BigQuery state_abbreviations contient deux colonnes : une avec les noms d'État complets et une avec les noms d'État abrégés. Vous pouvez utiliser cette table pour mettre à jour les noms d'État dans vos données client.

Afficher les données de noms d'État dans BigQuery

  1. Dans un autre onglet, accédez à la page BigQuery Studio :

    Accéder à BigQuery

  2. Cliquez sur Créer une requête SQL et saisissez la requête suivante dans l'éditeur de requête :

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    
  3. Cliquez sur Exécuter.

    BigQuery affiche une liste des noms des États et de leurs abréviations.

Accéder à la table BigQuery

Ajoutez une source dans votre pipeline qui accédera à cette table BigQuery state_abbreviations.

  1. Accédez à la page Cloud Data Fusion Studio et développez le menu Source.
  2. Cliquez sur BigQuery.

    Un nœud source BigQuery apparaît sur le canevas, avec les deux autres nœuds.

  3. Maintenez le pointeur de la souris sur le nœud source BigQuery, puis cliquez sur Propriétés.

    1. Dans le champ ID de l'ensemble de données, saisissez dis-user-guide.
    2. Dans le champ Nom de référence, saisissez state_abbreviations.
    3. Dans le champ Ensemble de données, saisissez campaign_tutorial.
    4. Dans le champ Table, saisissez state_abbreviations.
  4. Renseignez le schéma de la table à partir de BigQuery en cliquant sur Obtenir le schéma.

  5. Cliquez sur Fermer.

Joindre les deux sources de données

Pour générer une sortie contenant des données client avec des noms d'État abrégés, joignez les deux sources de données : les données client et les abréviations d'État.

  1. Accédez à la page Cloud Data Fusion Studio et développez le menu Analytics.
  2. Cliquez sur Joiner.

    Un nœud Joiner, représentant une action semblable à une jointure SQL, apparaît sur le canevas.

  3. Pour connecter le nœud Wrangler et le nœud BigQuery au nœud Joiner, faites glisser une flèche de connexion sur le bord droit du nœud source et déposez-la sur le nœud de destination.

    Associer les nœuds Wrangler et BigQuery au nœud Joiner

  4. Maintenez le pointeur de la souris sur le nœud Joiner et cliquez sur Propriétés.

    1. Dans la section Champs, développez Wrangler et BigQuery.

      1. Décochez la case État de Wrangler.
      2. Décochez la case Nom BigQuery, car vous ne souhaitez obtenir que le nom d'État abrégé et non le nom complet.
      3. Laissez la case abréviation cochée de BigQuery et remplacez l'alias par State.

        Propriétés du nœud Joiner

    2. Dans le champ Type de jointure, laissez la valeur Externe. Sous Entrées requises, cochez la case Wrangler.

    3. Dans la section Condition de jointure, sélectionnez État pour Wrangler. Pour BigQuery, sélectionnez nom.

    4. Générez le schéma de la jointure résultante. Cliquez sur Obtenir un schéma.

    5. Cliquez sur Valider.

    6. Cliquez sur Fermer.

Stocker le résultat dans BigQuery

Stockez le résultat de votre pipeline dans une table BigQuery. L'emplacement de stockage de vos données s'appelle un récepteur.

  1. Accédez à la page Cloud Data Fusion Studio et développez Récepteur.
  2. Cliquez sur BigQuery.
  3. Connectez le nœud Joiner au nœud BigQuery.

    Connecter le nœud Joiner et le nœud BigQuery

  4. Maintenez le pointeur de la souris sur le nœud BigQuery et cliquez sur Propriétés.

    1. Dans le champ Ensemble de données, saisissez dis_user_guide.
    2. Dans le champ Table, sélectionnez customer_data_abbreviated_states.
    3. Cliquez sur Fermer.

Déployer et exécuter le pipeline

  1. Sur la page Studio, cliquez sur Attribuer un nom au pipeline, puis saisissez CampaignPipeline.
  2. Cliquez sur Enregistrer.
  3. Dans l'angle supérieur droit, cliquez sur Déployer.
  4. Une fois le déploiement terminé, cliquez sur Exécuter.

L'exécution de votre pipeline peut prendre quelques minutes. En attendant, vous pouvez observer l'État de transition du pipeline de Provisionnement > Démarrage > En cours d'exécution > Déprovisionnement > Réussite.

Afficher les résultats

  1. Dans Google Cloud Console, accédez à la page "BigQuery" :

    Accéder à BigQuery

  2. Cliquez sur Créer une requête SQL.

  3. Interroger la table customer_data_abbreviated_states :

    SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
    

    Afficher les résultats

Le connecteur de données a bien été créé.

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

Supprimer l'ensemble de données BigQuery

Pour supprimer l'ensemble de données BigQuery que vous avez créé dans ce tutoriel, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Sélectionnez l'ensemble de données dis_user_guide.
  3. Cliquez sur Supprimer l'ensemble de données.

Supprimer l'instance Cloud Data Fusion

Suivez ces instructions pour supprimer votre instance Cloud Data Fusion.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Étape suivante