Crea una pipeline della campagna target
Scopri come utilizzare Cloud Data Fusion per pulire, trasformare ed elaborare i dati dei clienti e selezionare i candidati per una campagna target.
Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Aiuto:
Scenario
Vuoi creare materiali di marketing personalizzati per una promozione in corso di una campagna e vuoi distribuire i materiali direttamente nelle caselle di posta domestiche dei tuoi clienti.
La campagna presenta due vincoli:
- Località: effettui consegne solo a clienti in California, Washington e Oregon.
- Costo: per risparmiare carburante, effettui consegne a domicilio dei clienti rapidamente accessibili. Consegni solo a clienti che vivono in strada.
Questo tutorial mostra come generare l'elenco di indirizzi dei clienti per la campagna. In questo tutorial imparerai a:
- Ripulisci i dati dei clienti: filtra i clienti che vivono in un viale in California, Washington o Oregon.
Crea una pipeline che:
- Unisce i dati dei clienti filtrati a un set di dati pubblico contenente le abbreviazioni degli stati.
- Archivia i dati puliti e uniti in una tabella BigQuery su cui puoi eseguire query (utilizzando l'interfaccia web di BigQuery) o analizzare (utilizzando Looker Studio).
Obiettivi
- Connetti Cloud Data Fusion a due origini dati
- Applicare le trasformazioni di base
- Unire le due origini dati
- Scrivi i dati di output in un sink
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc.
-
Crea un'istanza di Cloud Data Fusion.
Questo tutorial presuppone che utilizzi l'account di servizio Compute Engine predefinito.
Gestisci autorizzazioni
Crea e assegna le autorizzazioni e i ruoli personalizzati richiesti.
Creare un ruolo personalizzato e aggiungere autorizzazioni
Nella console Google Cloud, vai alla pagina Ruoli:
Fai clic su
Crea ruolo.Nel campo Title (Titolo), inserisci
Custom Role-Tutorial
.Fai clic su
Aggiungi autorizzazioni.Nella finestra Aggiungi autorizzazioni, seleziona le seguenti autorizzazioni e fai clic su Aggiungi:
bigquery.datasets.create
bigquery.jobs.create
storage.buckets.create
Fai clic su Crea.
Assegna un ruolo personalizzato all'account di servizio Compute Engine predefinito
Vai alla pagina Istanze di Cloud Data Fusion:
Fai clic sul nome dell'istanza.
Prendi nota dell'account di servizio Dataproc predefinito. La pagina dei dettagli dell'istanza contiene queste informazioni.
Di seguito è riportato il formato del nome dell'account di servizio Dataproc:
CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com
.Scopri di più sugli account di servizio Dataproc.
Vai alla pagina IAM:
Nella barra Filtro, inserisci il nome del tuo account di servizio Dataproc predefinito.
Per l'account di servizio Compute Engine predefinito, fai clic su
Modifica.Fai clic su
Aggiungi un altro ruolo.Nel campo Seleziona un ruolo, scegli Tutorial ruolo personalizzato.
Fai clic su Salva.
Assicurati che all'account di servizio sia già assegnato il ruolo Esecutore Cloud Data Fusion.
Prepara i dati dei clienti
Questo tutorial richiede i seguenti due set di dati di input, entrambi forniti con l'istanza di Cloud Data Fusion:
- Dati dei clienti di esempio: un file CSV denominato
customers.csv
. - Abbreviazioni di stato: una tabella BigQuery denominata
state_abbreviations
.
Carica i dati dei clienti
Vai alla pagina Istanze di Cloud Data Fusion:
Per l'istanza di Cloud Data Fusion in uso, fai clic su Visualizza istanza. L'interfaccia web di Cloud Data Fusion si apre in una nuova scheda.
Fai clic su Wrangler. Si apre la pagina Wrangler.
Nel riquadro Connessioni, fai clic su GCS > Bucket di esempio.
Fai clic su campaign-tutorial.
Fai clic su customers.csv.
Nella finestra Opzioni di analisi, specifica quanto segue:
- Formato:
csv
- Abilita valore tra virgolette:
False
- Usa la prima riga per l'intestazione:
False
- Codifica file:
UTF-8
- Formato:
Fai clic su Conferma. I dati dei clienti vengono caricati in una nuova scheda in Wrangler.
Pulisci i dati dei clienti
Contiene due attività secondarie:
- Impostazione dello schema
- Filtrare i dati dei clienti per presentare solo il pubblico di destinazione necessario
Impostare lo schema
Imposta lo schema dei dati assegnando nomi appropriati alle colonne della tabella. Per assegnare alle colonne, come body_1
e body_2
, nomi più
informativi, segui questi passaggi:
- Nel riquadro a destra, fai clic sulla scheda Colonne.
- Fai clic sul menu a discesa Nomi delle colonne e seleziona Imposta tutti.
Nella finestra di dialogo Nomi di colonna per l'impostazione collettiva, inserisci i seguenti nomi di colonna separati da virgole:
Name,StreetAddress,City,State,Country
Fai clic su Applica.
Filtrare i dati
Filtra i dati per visualizzare solo i clienti che vivono in California, Oregon o Washington.
Rimuovi tutte le righe che contengono valori diversi da questi stati:
- Fai clic sul menu a discesa della colonna Stato e seleziona Filtro.
Nella finestra del filtro, procedi nel seguente modo:
- Fai clic su Conserva le righe.
- Fai clic sul menu a discesa Se e seleziona il valore corrisponde alla regex.
Inserisci la seguente espressione regolare:
^(California|Oregon|Washington)$
Fai clic su Applica.
I valori nella colonna Stato sono California, Oregon o Washington.
Filtra i dati per visualizzare solo i clienti che vivono nelle vicinanze. Conserva solo gli indirizzi contenenti la stringa avenue
:
- Fai clic sul menu a discesa della colonna StreetAddress e seleziona Filter (Filtro).
Nella finestra del filtro, procedi nel seguente modo:
- Fai clic su Conserva le righe.
- Fai clic sul menu a discesa Se, seleziona il valore contiene e inserisci
Avenue
. - Seleziona Ignora maiuscole/minuscole.
Fai clic su Applica.
Prima di eseguire job di elaborazione parallela sull'intero set di dati, Wrangler mostra solo i primi 1000 valori del set di dati. Poiché hai filtrato alcuni dati, solo alcuni clienti rimangono nella visualizzazione Wrangler.
Crea una pipeline batch
Hai pulito i dati e hai eseguito trasformazioni su un sottoinsieme di dati. Ora puoi creare una pipeline batch per eseguire trasformazioni sull'intero set di dati.
Cloud Data Fusion converte la pipeline creata in Studio in un programma Apache Spark che esegue le trasformazioni in parallelo su un cluster Dataproc temporaneo. Questo processo ti consente di eseguire trasformazioni complesse su grandi quantità di dati in modo scalabile e affidabile, senza dover gestire l'infrastruttura.
- Nella pagina di Wrangler, fai clic su Crea una pipeline.
- Seleziona pipeline in modalità batch. Si apre la pagina di Studio.
In alto a sinistra, assicurati che sia visualizzato pipeline di dati - Batch come tipo di pipeline.
Nella pagina di Studio, un nodo di origine GCSFile è connesso a un nodo Wrangler.
Le trasformazioni applicate alla pagina Wrangler vengono visualizzate nel nodo Wrangler della pagina di Studio.
Per visualizzare le trasformazioni applicate, tieni il puntatore sul nodo Wrangler e fai clic su Proprietà.
Le trasformazioni applicate vengono visualizzate nelle Direttiva.
Fai clic su Convalida.
Fai clic su
Chiudi.
Ad esempio, ti rendi conto che la colonna Country non è necessaria perché il valore è sempre "USA". Per eliminare la colonna:
- Fai clic su Wrangle.
- Fai clic sulla Freccia giù accanto a Paese e seleziona Elimina colonna.
- Fai clic su Applica. La pagina Wrangler si chiude e la finestra Proprietà di Wrangler
si apre sulla pagina di Studio. Nelle Direttiva, viene visualizzato
drop Country
. - Fai clic su Chiudi.
Abbrevia i nomi degli stati
Il sistema di navigazione del veicolo per la consegna riconosce solo gli indirizzi che contengono nomi di stato abbreviati (CA, non California) e i dati dei clienti contengono nomi completi.
La tabella pubblica state_abbreviations
di BigQuery contiene due
colonne: una con i nomi completi e l'altra con i nomi degli stati abbreviati.
Puoi utilizzare questa tabella per aggiornare i nomi degli stati nei dati dei clienti.
Visualizzare i dati relativi ai nomi degli stati in BigQuery
In una scheda separata, vai alla pagina di BigQuery Studio:
Fai clic su Crea query SQL e inserisci la query seguente nell'Editor query:
SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
Fai clic su Run (Esegui).
Vengono visualizzati i nomi degli stati e le relative abbreviazioni.
Accedere alla tabella BigQuery
Aggiungi un'origine alla pipeline che accederà alla tabella state_abbreviations
di BigQuery.
- Vai alla pagina di Cloud Data Fusion Studio ed espandi il menu Origine.
Fai clic su BigQuery.
Un nodo di origine BigQuery viene visualizzato sul canvas, insieme agli altri due nodi.
Tieni il puntatore sul nodo di origine BigQuery e fai clic su Proprietà.
- Nel campo ID progetto set di dati, inserisci
dis-user-guide
. - Nel campo Nome riferimento, inserisci
state_abbreviations
. - Nel campo Set di dati, inserisci
campaign_tutorial
. - Nel campo Tabella, inserisci
state_abbreviations
.
- Nel campo ID progetto set di dati, inserisci
Per compilare lo schema della tabella da BigQuery, fai clic su Ottieni schema.
Fai clic su
Chiudi.
Unire le due origini dati
Per generare un output contenente i dati dei clienti con nomi degli stati abbreviati, unisci le due origini dati, i dati dei clienti e le abbreviazioni degli stati.
- Vai alla pagina di Cloud Data Fusion Studio ed espandi il menu Analytics.
Fai clic su Joiner.
Sul canvas viene visualizzato un nodo Joiner, che rappresenta un'azione simile a un join SQL.
Collega i nodi Wrangler e BigQuery al nodo Joiner: trascina una freccia di connessione sul bordo destro del nodo di origine e rilascialo sul nodo di destinazione.
Tieni il puntatore sul nodo Joiner e fai clic su Proprietà.
Nella sezione Campi, espandi Wrangler e BigQuery.
- Deseleziona la casella di controllo state.
- Deseleziona la casella di controllo Nome BigQuery perché vuoi solo il nome dello stato abbreviato e non il nome completo.
Mantieni selezionata la casella di controllo Abbreviazione di BigQuery e cambia l'alias in
State
.
Nel campo Join Type (Tipo di join), lascia il valore su Outer. In Input obbligatori, seleziona la casella di controllo Wrangler.
Nella sezione Condizione di join, per Wrangler, seleziona State. Per BigQuery, seleziona
Name
.Genera lo schema del join risultante. Fai clic su Ottieni schema.
Fai clic su Convalida.
Fai clic su
Chiudi.
Archiviare l'output in BigQuery
Archivia il risultato della pipeline in una tabella BigQuery. La posizione in cui archivi i dati è denominata sink.
- Vai alla pagina di Cloud Data Fusion Studio ed espandi Sink.
- Fai clic su BigQuery.
Collega il nodo Joiner al nodo BigQuery.
Tieni il puntatore sul nodo BigQuery e fai clic su Proprietà.
- Nel campo Set di dati, inserisci
dis_user_guide
. - Nel campo Tabella, seleziona
customer_data_abbreviated_states
. - Fai clic su Chiudi.
- Nel campo Set di dati, inserisci
Esegui il deployment della pipeline
Nella pagina di Studio, fai clic su Assegna un nome alla pipeline e inserisci
CampaignPipeline
.Fai clic su Ok.
Nell'angolo in alto a destra, fai clic su Esegui il deployment.
Al termine del deployment, fai clic su Esegui.
L'esecuzione della pipeline può richiedere alcuni minuti. Nell'attesa, puoi osservare lo stato della transizione della pipeline da Provisioning > Avvio > In esecuzione > Deprovisioning > Riuscito.
Visualizza i risultati
Nella console Google Cloud, vai alla pagina di BigQuery:
Fai clic su Crea query SQL.
Esegui una query sulla tabella
customer_data_abbreviated_states
:SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
Hai creato una pipeline di dati.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi:
Elimina il set di dati BigQuery
Per eliminare il set di dati BigQuery che hai creato in questo tutorial, segui questi passaggi:
- Nella console Google Cloud, vai alla pagina BigQuery.
- Seleziona il set di dati
dis_user_guide
. - Fai clic su delete Elimina set di dati.
Elimina l'istanza di Cloud Data Fusion
Segui queste istruzioni per eliminare l'istanza di Cloud Data Fusion.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.
Per eliminare il progetto:
- Nella console Google Cloud, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.
Passaggi successivi
- Scopri di più su Cloud Data Fusion.