Créer un pipeline de campagne cible
Découvrez comment utiliser Cloud Data Fusion pour nettoyer, transformer et traiter les données client afin de sélectionner des candidats pour une campagne cible.
Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud, cliquez sur Visite guidée :
Scénario
Vous souhaitez créer des supports marketing personnalisés pour une promotion de campagne en cours, et que vous souhaitez distribuer les documents directement aux boîtes aux lettres personnelles de vos clients.
Votre campagne comporte deux contraintes :
- L'emplacement : vous livrez uniquement aux clients en Californie, à Washington et en Oregon.
- Coût: pour économiser du carburant, vous livrez vos produits à des clients rapidement accessibles. domiciles. Vous ne livrez qu'aux clients qui habitent dans des avenues.
Ce tutoriel vous explique comment générer la liste des adresses de clients pour la campagne. Dans ce tutoriel, vous allez effectuer les opérations suivantes :
- Nettoyer les données client : filtrer les clients qui habitent dans une rue située en Californie, à Washington ou en Oregon.
Créer un pipeline qui effectue les opérations suivantes :
- Regroupe les données client filtrées via un ensemble de données public contenant des abréviations d'état.
- Stocke les données nettoyées et regroupées dans une table BigQuery que vous pouvez interroger (à l'aide de l'interface Web BigQuery) ou analyser (avec Looker Studio).
Objectifs
- Connecter Cloud Data Fusion à deux sources de données
- Appliquer des transformations de base
- Regrouper les deux sources de données
- Écrire les données de sortie dans un récepteur
Avant de commencer
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.
- Créez une instance Cloud Data Fusion.
Dans ce tutoriel, nous partons du principe que vous utilisez le service Compute Engine par défaut de service.
Gérer les autorisations
Créez et attribuez les rôles et autorisations personnalisés nécessaires.
Créer un rôle personnalisé et ajouter des autorisations
Dans la console Google Cloud, accédez à la page Rôles.
Cliquez sur
Créer un rôle.Dans le champ Title (Titre), saisissez
Custom Role-Tutorial
.Cliquez sur
Ajouter des autorisations.Dans la fenêtre Ajouter des autorisations, sélectionnez les autorisations suivantes et cliquez sur Ajouter :
bigquery.datasets.create
bigquery.jobs.create
storage.buckets.create
Cliquez sur Créer.
Attribuer un rôle personnalisé au compte de service Compute Engine par défaut
Accédez à la page Instances de Cloud Data Fusion :
Cliquez sur le nom de votre instance.
Notez le compte de service Dataproc par défaut. La page de détails de l'instance contient ces informations.
Le format du nom du compte de service Dataproc est le suivant :
CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com
.En savoir plus sur les comptes de service Dataproc
Accédez à la page IAM :
Dans la barre Filtre, saisissez le nom de votre compte de service Dataproc par défaut.
Pour votre compte de service Compute Engine par défaut, cliquez sur
Modifier.Cliquez sur
Ajouter un autre rôle.Dans le champ Sélectionnez un rôle, choisissez Tutoriel des rôles personnalisés.
Cliquez sur Enregistrer.
Assurez-vous que le compte de service dispose déjà du rôle d'exécuteur Cloud Data Fusion.
Préparer les données client
Ce tutoriel nécessite les deux ensembles de données d'entrée suivants, tous deux fournis avec votre instance Cloud Data Fusion :
- Exemples de données client : fichier CSV nommé
customers.csv
. - Abréviations d'États : table BigQuery nommée
state_abbreviations
.
Charger les données client
Accédez à la page Instances de Cloud Data Fusion :
Cliquez sur Afficher l'instance pour l'instance Cloud Data Fusion que vous utilisez. L'interface Web de Cloud Data Fusion s'ouvre dans un nouvel onglet.
Cliquez sur Wrangler. La page Wrangler s'ouvre.
Dans le volet Connexions, sélectionnez GCS > Exemples de buckets.
Cliquez sur campaign-tutorial.
Cliquez sur customers.csv.
Dans la fenêtre Options d'analyse, spécifiez les éléments suivants :
- Format :
csv
- Activer la valeur entre guillemets :
False
- Utiliser la première ligne pour l'en-tête :
False
- Encodage de fichier :
UTF-8
- Format :
Cliquez sur Confirmer. Les données client sont chargées dans un nouvel onglet dans Wrangler.
Nettoyer les données client
Contient deux sous-tâches :
- Définir le schéma
- Filtrer les données client pour ne présenter que l'audience cible dont vous avez besoin
Définir le schéma
Définissez le schéma des données en attribuant des noms appropriés aux colonnes de la table. Pour attribuer des noms plus descriptifs aux colonnes, telles que body_1
et body_2
, procédez comme suit :
- Dans le volet de droite, cliquez sur l'onglet Colonnes.
- Cliquez sur la liste déroulante Noms de colonnes et sélectionnez Tout définir.
Dans la boîte de dialogue Définir des noms de colonnes de manière groupée, saisissez les noms de colonnes suivants, séparés par une virgule :
Name,StreetAddress,City,State,Country
Cliquez sur Appliquer.
Filtrer les données
Filtrez les données pour n'afficher que les clients résidant en Californie, en Oregon ou à Washington.
Supprimez toutes les lignes contenant des valeurs autres que ces états :
- Cliquez sur la liste déroulante de la colonne État, puis sélectionnez Filtrer.
Dans la fenêtre de filtre, procédez comme suit :
- Cliquez sur Conserver les lignes.
- Cliquez sur la liste déroulante Si, puis sélectionnez la valeur correspond à l'expression régulière.
Saisissez l'expression régulière suivante :
^(California|Oregon|Washington)$
Cliquez sur Appliquer.
Les valeurs de la colonne État sont Californie, Oregon ou Washington.
Filtrez les données pour n'afficher que les clients qui résident sur des avenues. Conservez uniquement les adresses contenant la chaîne Avenue
:
- Cliquez sur la liste déroulante de la colonne StreetAddress, puis sélectionnez Filtrer.
- Dans la fenêtre de filtre, procédez comme suit :
- Cliquez sur Conserver les lignes.
- Cliquez sur liste déroulante Si, sélectionnez la valeur contient et saisissez
Avenue
. - Sélectionnez Ignore case (Ignorer le cas).
- Cliquez sur Appliquer.
Avant d'effectuer des tâches de traitement en parallèle sur l'intégralité de votre ensemble de données, Wrangler n'affiche que les 1 000 premières valeurs de votre ensemble de données. Comme vous avez filtré certaines données, seuls quelques clients restent affichés dans Wrangler.
Créer un pipeline de traitement par lot
Vous avez nettoyé vos données et exécuté des transformations sur un sous-ensemble de vos données. Vous pouvez maintenant créer un pipeline par lots afin d'exécuter des transformations sur l'intégralité de votre ensemble de données.
Cloud Data Fusion traduit le pipeline que vous créez dans Studio en programme Apache Spark qui exécute des transformations en parallèle sur un cluster Dataproc éphémère. Ce processus vous permet des transformations complexes sur de grandes quantités de données dans un environnement de manière fiable, sans avoir à gérer l'infrastructure.
- Sur la page "Wrangler", cliquez sur Créer un pipeline.
- Sélectionnez Pipeline par lot. La page Studio s'ouvre.
Sur la page Studio, un nœud source GCSFile est connecté à un nœud Wrangler.
Les transformations que vous avez appliquées sur la page Wrangler apparaissent dans le nœud Wrangler de la page Studio.
Pour afficher les transformations que vous avez appliquées, maintenez le pointeur sur le nœud Wrangler et cliquez sur Propriétés.
Les transformations que vous avez appliquées figurent dans les directives.
Cliquez sur Valider.
Cliquez sur
Fermer.
Par exemple, vous vous rendez compte que la colonne Country n'est pas nécessaire, car la valeur
est toujours USA
. Pour supprimer la colonne, procédez comme suit :
- Cliquez sur Wrangle.
- Cliquez sur la flèche vers le bas à côté de Pays, puis sélectionnez Supprimer la colonne.
- Cliquez sur Appliquer. La page Wrangler se ferme et la fenêtre "Wrangler Properties" (Propriétés Wrangler)
s'ouvre sur la page Studio. Dans les directives,
drop Country
apparaît. - Cliquez sur Fermer.
Abréger les noms d'État
Le système de navigation de votre véhicule de livraison ne reconnaît que les adresses contenant des noms d'État abrégés (Californie, et non la Californie), et vos données client contiennent les noms d'État complets.
La table publique BigQuery state_abbreviations
contient deux colonnes : une avec les noms d'État complets et une avec les noms d'État abrégés.
Vous pouvez utiliser cette table pour mettre à jour les noms d'État dans vos données client.
Afficher les données de noms d'État dans BigQuery
Dans un autre onglet, accédez à la page BigQuery Studio :
Cliquez sur Créer une requête SQL et saisissez la requête suivante dans l'éditeur de requête :
SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
Cliquez sur Exécuter.
BigQuery affiche une liste des noms des États et de leurs abréviations.
Accéder à la table BigQuery
Ajoutez une source dans votre pipeline qui accédera à cette table BigQuery state_abbreviations
.
- Accédez à la page Cloud Data Fusion Studio et développez le menu Source.
Cliquez sur BigQuery.
Un nœud source BigQuery apparaît sur le canevas, avec les deux autres nœuds.
Maintenez le pointeur de la souris sur le nœud source BigQuery, puis cliquez sur Propriétés.
- Dans le champ ID de l'ensemble de données, saisissez
dis-user-guide
. - Dans le champ Nom de référence, saisissez
state_abbreviations
. - Dans le champ Ensemble de données, saisissez
campaign_tutorial
. - Dans le champ Table, saisissez
state_abbreviations
.
- Dans le champ ID de l'ensemble de données, saisissez
Renseignez le schéma de la table à partir de BigQuery en cliquant sur Obtenir le schéma.
Cliquez sur
Fermer.
Joindre les deux sources de données
Pour générer une sortie contenant des données client avec des noms d'État abrégés, joignez les deux sources de données : les données client et les abréviations d'État.
- Accédez à la page Cloud Data Fusion Studio et développez le menu Analytics.
Cliquez sur Joiner.
Un nœud Joiner, représentant une action semblable à une jointure SQL, apparaît sur le canevas.
Pour connecter le nœud Wrangler et le nœud BigQuery au nœud Joiner, faites glisser une flèche de connexion sur le bord droit du nœud source et déposez-la sur le nœud de destination.
Maintenez le pointeur de la souris sur le nœud Joiner et cliquez sur Propriétés.
Dans la section Champs, développez Wrangler et BigQuery.
- Décochez la case État de Wrangler.
- Décochez la case Nom BigQuery, car vous ne souhaitez obtenir que le nom d'État abrégé et non le nom complet.
Laissez la case abréviation cochée de BigQuery et remplacez l'alias par
State
.
Dans le champ Type de jointure, laissez la valeur Externe. Sous Entrées requises, cochez la case Wrangler.
Dans la section Condition de jointure, sélectionnez État pour Wrangler. Pour BigQuery, sélectionnez nom.
Générez le schéma de la jointure résultante. Cliquez sur Obtenir un schéma.
Cliquez sur Valider.
Cliquez sur
Fermer.
Stocker le résultat dans BigQuery
Stockez le résultat de votre pipeline dans une table BigQuery. L'emplacement de stockage de vos données s'appelle un récepteur.
- Accédez à la page Cloud Data Fusion Studio et développez Récepteur.
- Cliquez sur BigQuery.
Connectez le nœud Joiner au nœud BigQuery.
Maintenez le pointeur de la souris sur le nœud BigQuery et cliquez sur Propriétés.
- Dans le champ Ensemble de données, saisissez
dis_user_guide
. - Dans le champ Table, sélectionnez
customer_data_abbreviated_states
. - Cliquez sur Fermer.
- Dans le champ Ensemble de données, saisissez
Déployer et exécuter le pipeline
- Sur la page Studio, cliquez sur Attribuer un nom au pipeline, puis saisissez
CampaignPipeline
. - Cliquez sur Enregistrer.
- Dans l'angle supérieur droit, cliquez sur Déployer.
- Une fois le déploiement terminé, cliquez sur Exécuter.
L'exécution de votre pipeline peut prendre quelques minutes. En attendant, vous pouvez observer l'État de transition du pipeline de Provisionnement > Démarrage > En cours d'exécution > Déprovisionnement > Réussite.
Afficher les résultats
Dans Google Cloud Console, accédez à la page "BigQuery" :
Cliquez sur Créer une requête SQL.
Interroger la table
customer_data_abbreviated_states
:SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
Le connecteur de données a bien été créé.
Effectuer un nettoyage
Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :
Supprimer l'ensemble de données BigQuery
Pour supprimer l'ensemble de données BigQuery que vous avez créé dans ce tutoriel, procédez comme suit:
- Dans la console Google Cloud, accédez à la page "BigQuery".
- Sélectionnez l'ensemble de données
dis_user_guide
. - Cliquez sur delete Supprimer l'ensemble de données.
Supprimer l'instance Cloud Data Fusion
Suivez ces instructions pour supprimer votre instance Cloud Data Fusion.
Supprimer le projet
Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.
Pour supprimer le projet :
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Étape suivante
- Apprenez-en plus sur Cloud Data Fusion.