Cette page a été traduite par l'API Cloud Translation.

Créer un pipeline de campagne cible

Découvrez comment utiliser Cloud Data Fusion pour nettoyer, transformer et traiter les données client afin de sélectionner des candidats pour une campagne de ciblage.

Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud , cliquez sur Visite guidée :

Visite guidée

Scénario

Vous souhaitez créer des supports marketing personnalisés pour une promotion de campagne en cours et vous aimeriez les distribuer directement dans les boîtes aux lettres personnelles de vos clients.

Votre campagne comporte deux contraintes :

L'emplacement : vous livrez uniquement aux clients en Californie, à Washington et en Oregon.
Le coût : pour économiser du carburant, vous livrez aux domiciles de clients rapidement accessibles. Vous ne livrez qu'aux clients qui habitent dans des avenues.

Ce tutoriel vous explique comment générer la liste des adresses de clients pour la campagne. Dans ce tutoriel, vous allez effectuer les opérations suivantes :

Nettoyer les données client : filtrer les clients qui habitent dans une rue située en Californie, à Washington ou en Oregon.
Créer un pipeline qui effectue les opérations suivantes :
- Regroupe les données client filtrées via un ensemble de données public contenant des abréviations d'état.
- Stocke les données nettoyées et regroupées dans une table BigQuery que vous pouvez interroger (à l'aide de l'interface Web BigQuery) ou analyser (avec Looker Studio).

Objectifs

Connecter Cloud Data Fusion à deux sources de données
Appliquer des transformations de base
Regrouper les deux sources de données
Écrire les données de sortie dans un récepteur

Avant de commencer

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Créez une instance Cloud Data Fusion.
Dans ce tutoriel, nous partons du principe que vous utilisez le compte de service Compute Engine par défaut.

Gérer les autorisations

Créez et attribuez les rôles et autorisations personnalisés nécessaires.

Créer un rôle personnalisé et ajouter des autorisations

Dans la console Google Cloud , accédez à la page Rôles.

Accéder à la page Rôles
Cliquez sur Créer un rôle.
Dans le champ Titre, saisissez Custom Role-Tutorial.
Cliquez sur Ajouter des autorisations.
Dans la fenêtre Ajouter des autorisations, sélectionnez les autorisations suivantes et cliquez sur Ajouter :
- bigquery.datasets.create
- bigquery.jobs.create
- storage.buckets.create
Cliquez sur Créer.

Attribuer un rôle personnalisé au compte de service Compute Engine par défaut

Accédez à la page Instances de Cloud Data Fusion :
Créer une instance
Cliquez sur le nom de votre instance.
Notez le compte de service Dataproc par défaut. La page de détails de l'instance contient ces informations.

Le format du nom du compte de service Dataproc est le suivant :

CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com.

En savoir plus sur les comptes de service Dataproc
Accédez à la page IAM :

Accéder à la page Rôles
Dans la barre Filtre, saisissez le nom de votre compte de service Dataproc par défaut.
Pour votre compte de service Compute Engine par défaut, cliquez sur Modifier.
Cliquez sur Ajouter un autre rôle.
Dans le champ Sélectionnez un rôle, choisissez Tutoriel des rôles personnalisés.
Cliquez sur Enregistrer.
Assurez-vous que le compte de service dispose déjà du rôle d'exécuteur Cloud Data Fusion.

Préparer les données client

Ce tutoriel nécessite les deux ensembles de données d'entrée suivants, tous deux fournis avec votre instance Cloud Data Fusion :

Exemples de données client : fichier CSV nommé customers.csv.
Abréviations d'États : table BigQuery nommée state_abbreviations.

Charger les données client

Accédez à la page Instances de Cloud Data Fusion :
Accéder à la page "Instances"
Cliquez sur Afficher l'instance pour l'instance Cloud Data Fusion que vous utilisez. L'interface Web de Cloud Data Fusion s'ouvre dans un nouvel onglet.
Cliquez sur Wrangler. La page Wrangler s'ouvre.
Dans le volet Connexions, sélectionnez GCS > Exemples de buckets.
Cliquez sur campaign-tutorial.
Cliquez sur customers.csv.
Dans la fenêtre Options d'analyse, spécifiez les éléments suivants :
- Format : csv
- Activer la valeur entre guillemets : False
- Utiliser la première ligne pour l'en-tête : False
- Encodage de fichier : UTF-8
Cliquez sur Confirmer. Les données client sont chargées dans un nouvel onglet dans Wrangler.

Nettoyer les données client

Contient deux sous-tâches :

Définir le schéma
Filtrer les données client pour ne présenter que l'audience cible dont vous avez besoin

Définir le schéma

Définissez le schéma des données en attribuant des noms appropriés aux colonnes de la table. Pour attribuer des noms plus descriptifs aux colonnes, telles que body_1 et body_2, procédez comme suit :

Dans le volet de droite, cliquez sur l'onglet Colonnes.
Cliquez sur la liste déroulante Noms de colonnes et sélectionnez Tout définir.
Dans la boîte de dialogue Définir des noms de colonnes de manière groupée, saisissez les noms de colonnes suivants, séparés par une virgule :
```
Name,StreetAddress,City,State,Country
```
Cliquez sur Appliquer.

Filtrer les données

Filtrez les données pour n'afficher que les clients résidant en Californie, en Oregon ou à Washington.

Supprimez toutes les lignes contenant des valeurs autres que ces états :

Cliquez sur la liste déroulante de la colonne État, puis sélectionnez Filtrer.
Dans la fenêtre de filtre, procédez comme suit :
1. Cliquez sur Conserver les lignes.
2. Cliquez sur la liste déroulante Si, puis sélectionnez la valeur correspond à l'expression régulière.
3. Saisissez l'expression régulière suivante :
```
^(California|Oregon|Washington)$
```
4. Cliquez sur Appliquer.
Les valeurs de la colonne État sont Californie, Oregon ou Washington.

Filtrez les données pour n'afficher que les clients qui résident sur des avenues. Conservez uniquement les adresses contenant la chaîne Avenue :

Cliquez sur la liste déroulante de la colonne StreetAddress, puis sélectionnez Filtrer.
Dans la fenêtre de filtre, procédez comme suit :
1. Cliquez sur Conserver les lignes.
2. Cliquez sur liste déroulante Si, sélectionnez la valeur contient et saisissez Avenue.
3. Sélectionnez Ignore case (Ignorer le cas).
4. Cliquez sur Appliquer.

Avant d'effectuer des tâches de traitement en parallèle sur l'intégralité de votre ensemble de données, Wrangler n'affiche que les 1 000 premières valeurs de votre ensemble de données. Comme vous avez filtré certaines données, seuls quelques clients restent affichés dans Wrangler.

Créer un pipeline de traitement par lot

Vous avez nettoyé vos données et exécuté des transformations sur un sous-ensemble de vos données. Vous pouvez maintenant créer un pipeline par lots afin d'exécuter des transformations sur l'intégralité de votre ensemble de données.

Cloud Data Fusion traduit le pipeline que vous créez dans le Studio en un programme Apache Spark qui exécute des transformations en parallèle sur un cluster Dataproc éphémère. Ce processus vous permet d'exécuter des transformations complexes sur de grandes quantités de données de manière évolutive et fiable, sans avoir à gérer l'infrastructure.

Sur la page "Wrangler", cliquez sur Créer un pipeline.
Sélectionnez Pipeline par lot. La page Studio s'ouvre.
Sur la page Studio, un nœud source GCSFile est connecté à un nœud Wrangler.

Les transformations que vous avez appliquées sur la page Wrangler apparaissent dans le nœud Wrangler de la page Studio.
Pour afficher les transformations que vous avez appliquées, maintenez le pointeur sur le nœud Wrangler et cliquez sur Propriétés.

Les transformations que vous avez appliquées figurent dans les directives.
Cliquez sur Valider.
Cliquez sur Fermer.

Vous pouvez appliquer d'autres transformations en cliquant sur Wrangle, ce qui vous ramène à la page Wrangler. La transformation que vous avez ajoutée s'affiche sur la page Studio.

Par exemple, vous réalisez que la colonne Pays n'est pas nécessaire, car la valeur est toujours USA. Pour supprimer la colonne, procédez comme suit :

Cliquez sur Wrangle.
Cliquez sur la flèche vers le bas à côté de Pays, puis sélectionnez Supprimer la colonne.
Cliquez sur Appliquer. La page Wrangler se ferme et la fenêtre "Propriétés Wrangler" s'ouvre sur la page Studio. Dans Instructions, drop Country s'affiche.
Cliquez sur Fermer.

Abréger les noms d'État

Le système de navigation de votre véhicule de livraison ne reconnaît que les adresses contenant des noms d'État abrégés (Californie, et non la Californie), et vos données client contiennent les noms d'État complets.

La table publique BigQuery state_abbreviations contient deux colonnes : une avec les noms d'État complets et une avec les noms d'État abrégés. Vous pouvez utiliser cette table pour mettre à jour les noms d'État dans vos données client.

Afficher les données de noms d'État dans BigQuery

Dans un autre onglet, accédez à la page BigQuery Studio :

Accéder à BigQuery
Cliquez sur Créer une requête SQL et saisissez la requête suivante dans l'éditeur de requête :
```
SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
```
Cliquez sur Exécuter.

BigQuery affiche une liste des noms des États et de leurs abréviations.

Accéder à la table BigQuery

Ajoutez une source dans votre pipeline qui accédera à cette table BigQuery state_abbreviations.

Accédez à la page Cloud Data Fusion Studio et développez le menu Source.
Cliquez sur BigQuery.

Un nœud source BigQuery apparaît sur le canevas, avec les deux autres nœuds.
Maintenez le pointeur de la souris sur le nœud source BigQuery, puis cliquez sur Propriétés.
1. Dans le champ ID de l'ensemble de données, saisissez dis-user-guide.
2. Dans le champ Nom de référence, saisissez state_abbreviations.
3. Dans le champ Ensemble de données, saisissez campaign_tutorial.
4. Dans le champ Table, saisissez state_abbreviations.
Renseignez le schéma de la table à partir de BigQuery en cliquant sur Obtenir le schéma.
Cliquez sur Fermer.

Joindre les deux sources de données

Pour générer une sortie contenant des données client avec des noms d'État abrégés, joignez les deux sources de données : les données client et les abréviations d'État.

Accédez à la page Cloud Data Fusion Studio et développez le menu Analytics.
Cliquez sur Joiner.

Un nœud Joiner, représentant une action semblable à une jointure SQL, apparaît sur le canevas.
Pour connecter le nœud Wrangler et le nœud BigQuery au nœud Joiner, faites glisser une flèche de connexion sur le bord droit du nœud source et déposez-la sur le nœud de destination.
Maintenez le pointeur de la souris sur le nœud Joiner et cliquez sur Propriétés.
1. Dans la section Champs, développez Wrangler et BigQuery.
  1. Décochez la case État de Wrangler.
  2. Décochez la case Nom BigQuery, car vous ne souhaitez obtenir que le nom d'État abrégé et non le nom complet.
  3. Laissez la case abréviation cochée de BigQuery et remplacez l'alias par State.
2. Dans le champ Type de jointure, laissez la valeur Externe. Sous Entrées requises, cochez la case Wrangler.
3. Dans la section Condition de jointure, sélectionnez État pour Wrangler. Pour BigQuery, sélectionnez nom.
4. Générez le schéma de la jointure résultante. Cliquez sur Obtenir un schéma.
5. Cliquez sur Valider.
6. Cliquez sur Fermer.

Stocker le résultat dans BigQuery

Stockez le résultat de votre pipeline dans une table BigQuery. L'emplacement de stockage de vos données s'appelle un récepteur.

Accédez à la page Cloud Data Fusion Studio et développez Récepteur.
Cliquez sur BigQuery.
Connectez le nœud Joiner au nœud BigQuery.
Maintenez le pointeur de la souris sur le nœud BigQuery et cliquez sur Propriétés.
1. Dans le champ Ensemble de données, saisissez dis_user_guide.
2. Dans le champ Table, sélectionnez customer_data_abbreviated_states.
3. Cliquez sur Fermer.

Déployer et exécuter le pipeline

Sur la page Studio, cliquez sur Attribuer un nom au pipeline, puis saisissez CampaignPipeline.
Cliquez sur Enregistrer.
Dans l'angle supérieur droit, cliquez sur Déployer.
Une fois le déploiement terminé, cliquez sur Exécuter.

L'exécution de votre pipeline peut prendre quelques minutes. En attendant, vous pouvez observer l'État de transition du pipeline de Provisionnement > Démarrage > En cours d'exécution > Déprovisionnement > Réussite.

Afficher les résultats

Dans la console Google Cloud , accédez à la page BigQuery :

Accéder à BigQuery
Cliquez sur Créer une requête SQL.
Interroger la table customer_data_abbreviated_states :
```
SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
```
Remarque : Pour effectuer une analyse plus approfondie, vous pouvez connecter ce tableau à Looker Studio.

Le connecteur de données a bien été créé.

Effectuer un nettoyage

Pour éviter que les ressources utilisées dans cette démonstration soient facturées sur votre compte Google Cloud , procédez comme suit :

Supprimer l'ensemble de données BigQuery

Pour supprimer l'ensemble de données BigQuery que vous avez créé dans ce tutoriel, procédez comme suit :

Dans la console Google Cloud , accédez à la page "BigQuery".
Accéder à BigQuery
Sélectionnez l'ensemble de données dis_user_guide.
Cliquez sur Supprimer l'ensemble de données.

Supprimer l'instance Cloud Data Fusion

Suivez ces instructions pour supprimer votre instance Cloud Data Fusion.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

Attention : La suppression d'un projet aura les effets suivants :

Tout le contenu du projet est supprimé. Si vous avez utilisé un projet existant pour les tâches décrites dans ce document et que vous le supprimez, vous supprimerez également tout autre travail effectué dans le projet.
Les ID de projets personnalisés sont perdus. Lorsque vous avez créé ce projet, vous avez peut-être créé un ID de projet personnalisé que vous souhaitez utiliser à l'avenir. Pour conserver les URL qui utilisent l'ID de projet, telle qu'une URL appspot.com, supprimez les ressources sélectionnées dans le projet au lieu de supprimer l'ensemble du projet.

Si vous envisagez d'explorer plusieurs architectures, tutoriels et guides de démarrage rapide, réutiliser des projets peut vous aider à ne pas dépasser les limites de quotas des projets.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Étapes suivantes

Apprenez-en plus sur Cloud Data Fusion.