Crea una pipeline per la campagna target
Scopri come utilizzare Cloud Data Fusion per pulire, trasformare ed elaborare per selezionare i candidati per una campagna target.
Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Procedura guidata:
Scenario
Vuoi creare materiali di marketing personalizzati per la promozione di una campagna in corso, e vorresti distribuire i materiali direttamente nelle caselle di posta di casa verso i tuoi clienti.
La tua campagna ha due vincoli:
- Località: effettui consegne solo a clienti in California, Washington, e in Oregon.
- Costo: per risparmiare carburante, le consegne vengono effettuate a clienti rapidamente accessibili case. Consegna solo ai clienti che vivono nelle avenue.
Questo tutorial mostra come generare l'elenco degli indirizzi dei clienti per la campagna. In questo tutorial imparerai a:
- Pulire i dati dei clienti, filtrando i clienti che vivono in una avenue in California, Washington o Oregon.
Creare una pipeline che:
- Unisca i dati dei clienti filtrati con un set di dati pubblico contenente le abbreviazioni degli stati.
- Archivi i dati puliti e uniti in una tabella BigQuery su cui eseguire query (utilizzando l'interfaccia web di BigQuery) o da analizzare (utilizzando Looker Studio).
Obiettivi
- Collegare Cloud Data Fusion a due origini dati
- Applicare le trasformazioni di base
- Unisci le due origini dati
- Scrivere i dati di output in un sink
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.
-
Creare un'istanza Cloud Data Fusion.
Questo tutorial presuppone che utilizzi il servizio Compute Engine predefinito .
Gestisci autorizzazioni
Crea e assegna le autorizzazioni e i ruoli personalizzati richiesti.
Crea un ruolo personalizzato e aggiungi le autorizzazioni
Nella console Google Cloud, vai alla pagina Ruoli:
Fai clic su
Crea ruolo.Nel campo Titolo, inserisci
Custom Role-Tutorial
.Fai clic su
Aggiungi autorizzazioni.Nella finestra Aggiungi autorizzazioni, seleziona le seguenti autorizzazioni e fai clic su Aggiungi:
bigquery.datasets.create
bigquery.jobs.create
storage.buckets.create
Fai clic su Crea.
Assegna un ruolo personalizzato al service account Compute Engine predefinito
Vai alla pagina Istanze Cloud Data Fusion:
Fai clic sul nome dell'istanza.
Prendi nota del service account Dataproc predefinito. La pagina dei dettagli dell'istanza contiene queste informazioni.
Di seguito è riportato il formato del nome del service account Dataproc:
CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com
.Scopri di più sugli account di servizio Dataproc.
Vai alla pagina IAM:
Nella barra Filtro, inserisci il nome del tuo service account Dataproc predefinito.
Per il service account Compute Engine predefinito, fai clic su
Modifica.Fai clic su
Aggiungi un altro ruolo.Nel campo Seleziona un ruolo, scegli Ruolo personalizzato - Tutorial.
Fai clic su Salva.
Assicurati che al service account sia già assegnato il ruolo di Runner Cloud Data Fusion.
Preparare i dati dei clienti
Questo tutorial richiede i seguenti due set di dati di input, entrambi forniti con l'istanza Cloud Data Fusion.
- Dati dei clienti di esempio: un file CSV denominato
customers.csv
. - Abbreviazioni degli stati: una tabella BigQuery denominata
state_abbreviations
.
Caricare i dati dei clienti
Vai alla pagina Istanze Cloud Data Fusion:
Per l'istanza Cloud Data Fusion in uso, fai clic su Visualizza istanza. L'interfaccia web di Cloud Data Fusion si apre in una nuova scheda.
Fai clic su Wrangler. Viene visualizzata la pagina Wrangler.
Nel riquadro Connections (Connessioni), fai clic su GCS > Sample Buckets (Bucket di esempio).
Fai clic su campaign-tutorial.
Fai clic su customers.csv.
Nella finestra Parsing options (Opzioni di analisi), specifica quanto segue:
- Format (Formato):
csv
- Enable quoted value (Abilita valore tra virgolette):
False
- Use first row as header (Usa la prima riga per l'intestazione):
False
- File-encoding (Codifica file):
UTF-8
- Format (Formato):
Fai clic su Conferma. I dati dei clienti vengono caricati in una nuova scheda in Wrangler.
Pulire i dati dei clienti
Questo passaggio prevede due attività secondarie:
- Impostazione dello schema
- Filtro dei dati dei clienti per presentare solo il pubblico di destinazione necessario
Imposta lo schema
Imposta lo schema dei dati assegnando nomi appropriati alle colonne
della tabella. Per assegnare nomi più informativi alle colonne, ad esempio body_1
e body_2
:
- Nel riquadro a destra, fai clic sulla scheda Columns (Colonne).
- Fai clic sul menu a discesa Column names (Nomi delle colonne) e seleziona Set all (Imposta tutti).
Nella finestra di dialogo Bulk set column names (Imposta in blocco i nomi delle colonne), inserisci i seguenti nomi delle colonne separati da virgole:
Name,StreetAddress,City,State,Country
Fai clic su Applica.
Filtra i dati
Filtra i dati per visualizzare solo i clienti che vivono in California, Oregon o Washington.
Rimuovi tutte le righe che contengono valori diversi da questi stati:
- Fai clic sul menu a discesa della colonna State (Stato) e seleziona Filter (Filtro).
Nella finestra di filtro:
- Fai clic su Keep rows (Conserva righe).
- Fai clic sul menu a discesa If (Se) e seleziona value matches regex (il valore corrisponde alla regex).
Inserisci la seguente espressione regolare:
^(California|Oregon|Washington)$
Fai clic su Applica.
I valori nella colonna State (Stato) sono California, Oregon o Washington.
Filtra i dati per visualizzare solo i clienti che vivono nelle avenue. Conserva
solo gli indirizzi che contengono la stringa Avenue
:
- Fai clic sul menu a discesa della colonna StreetAddress (Indirizzo) e seleziona StreetAddress (Filtro).
- Nella finestra di filtro:
- Fai clic su Keep rows (Conserva righe).
- Fai clic sul menu a discesa If (Se), seleziona value contains (il valore contiene) e inserisci
Avenue
. - Seleziona Ignore case (Ignora maiuscole/minuscole).
- Fai clic su Applica.
Prima di eseguire job di elaborazione parallela sull'intero set di dati, Wrangler mostra solo i primi 1000 valori del set di dati. Perché hai filtrato alcuni dati, solo alcuni clienti rimangono nel display di Wrangler.
Creare una pipeline batch
Hai pulito i dati e hai eseguito trasformazioni su un sottoinsieme di questi. Ora puoi creare una pipeline batch per eseguire trasformazioni sull'intero set di dati.
Cloud Data Fusion traduce la pipeline creata in Studio in un programma Apache Spark che esegue trasformazioni in parallelo su un cluster Dataproc temporaneo. Questo processo consente di eseguire trasformazioni complesse su grandi quantità di dati in modo scalabile e affidabile, senza dover gestire l'infrastruttura.
- Nella pagina Wrangler, fai clic su Create a pipeline (Crea una pipeline).
- Seleziona Batch pipeline (Pipeline batch). Si apre la pagina di Studio.
Nella pagina di Studio, un nodo di origine GCSFile è connesso a un nodo Wrangler.
Le trasformazioni applicate nella pagina Wrangler vengono visualizzate nel nodo Wrangler nella pagina di Studio.
Per visualizzare le trasformazioni applicate, tieni il puntatore sul nodo Wrangler e fai clic su Properties (Proprietà).
Le trasformazioni applicate vengono visualizzate in Directives (Direttive).
Fai clic su Validate (Convalida).
Fai clic su
Close (Chiudi).
Ad esempio, ti rendi conto che la colonna Paese non è necessaria perché il valore
è sempre USA
. Per eliminare la colonna:
- Fai clic su Wrangler.
- Fai clic sulla Freccia giù accanto a Paese e seleziona Elimina colonna.
- Fai clic su Applica. La pagina Wrangler si chiude e nella pagina di Studio si apre la finestra Proprietà Wrangler. Nelle Istruzioni, viene visualizzato
drop Country
. - Fai clic su Close (Chiudi).
Abbreviare i nomi degli stati
Il sistema di navigazione del veicolo per la distribuzione riconosce solo gli indirizzi che contengono nomi di stato abbreviati (CA, non California) e i dati dei clienti contengono nomi completi.
La tabella pubblica state_abbreviations
di BigQuery contiene due
colonne: una con i nomi completi degli stati e l'altra con i nomi abbreviati.
Puoi utilizzare questa tabella per aggiornare i nomi degli stati nei dati dei clienti.
Visualizza i dati dei nomi degli stati in BigQuery
In una scheda a parte, vai alla pagina di BigQuery Studio:
Fai clic su Crea query SQL e inserisci la query seguente nell'editor query:
SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
Fai clic su Esegui.
BigQuery mostra un elenco di nomi di stati con le relative abbreviazioni.
Accedere alla tabella BigQuery
Aggiungi un'origine nella pipeline che accederà alla tabella state_abbreviations
di BigQuery.
- Vai alla pagina di Studio di Cloud Data Fusion ed espandi il menu Origine.
Fai clic su BigQuery.
Un nodo di origine BigQuery viene visualizzato nel canvas, insieme agli altri due nodi.
Tieni il puntatore sul nodo di origine BigQuery e fai clic su Properties (Proprietà).
- Nel campo Dataset Project ID (ID progetto set di dati), inserisci
dis-user-guide
. - Nel campo Reference Name (Nome riferimento), inserisci
state_abbreviations
. - Nel campo Dataset (Set di dati), inserisci
campaign_tutorial
. - Nel campo Table (Tabella), inserisci
state_abbreviations
.
- Nel campo Dataset Project ID (ID progetto set di dati), inserisci
Per compilare lo schema della tabella da BigQuery, fai clic su Get schema (Ottieni schema).
Fai clic su
Close (Chiudi).
Unisci le due origini dati
Per generare un output contenente i dati dei clienti con nomi di stati abbreviati, unisci le due origini dati, i dati dei clienti e le abbreviazioni degli stati.
- Vai alla pagina di Studio di Cloud Data Fusion ed espandi il menu Analytics.
Fai clic su Joiner.
Nel canvas viene visualizzato un nodo Joiner, che rappresenta un'azione simile a un join SQL.
Collega il nodo Wrangler e il nodo BigQuery al nodo Joiner: trascina una freccia di connessione sul bordo destro del nodo di origine e rilasciala sul nodo di destinazione.
Tieni il puntatore sul nodo Joiner e fai clic su Properties (Proprietà).
Nella sezione Fields (Campi), espandi Wrangler e BigQuery.
- Deseleziona la casella di controllo state in Wrangler.
- Deseleziona la casella di controllo name in BigQuery perché ti interessa avere solo il nome dello stato abbreviato e non il nome completo.
Mantieni selezionata la casella di controllo abbreviation in BigQuery e cambia l'alias in
State
.
Nel campo Join Type (Tipo di join), lascia il valore su Outer. Per Required inputs (Input obbligatori), seleziona la casella di controllo Wrangler.
Nella sezione Join condition (Condizione di unione), seleziona State (Stato) per Wrangler. Per BigQuery, seleziona name (nome).
Genera lo schema dall'unione che risulta. Fai clic su Get Schema (Ottieni schema).
Fai clic su Validate (Convalida).
Fai clic su
Close (Chiudi).
Archivia l'output in BigQuery
Archivia il risultato della pipeline in una tabella BigQuery. I dati verranno archiviati in un sink.
- Vai alla pagina di Studio di Cloud Data Fusion ed espandi Sink.
- Fai clic su BigQuery.
Collega il nodo Joiner al nodo BigQuery.
Tieni il puntatore sul nodo BigQuery e fai clic su Properties (Proprietà).
- Nel campo Dataset (Set di dati), inserisci
dis_user_guide
. - Nel campo Table (Tabella), seleziona
customer_data_abbreviated_states
. - Fai clic su Close (Chiudi).
- Nel campo Dataset (Set di dati), inserisci
Esegui il deployment della pipeline ed eseguila
- Nella pagina di Studio, fai clic su Assegna un nome alla pipeline e inserisci
CampaignPipeline
. - Fai clic su Salva.
- Nell'angolo in alto a destra, fai clic su Esegui il deployment.
- Al termine del deployment, fai clic su Esegui.
L'esecuzione della pipeline può richiedere alcuni minuti. Mentre attendi, puoi osservare lo Stato della transizione della pipeline:In fase di provisioning >. In fase di avvio >. In corso >. In fase di deprovisioning >. Operazione riuscita.
Visualizza i risultati
Nella console Google Cloud, vai alla pagina BigQuery:
Fai clic su Crea query SQL.
Esegui una query della tabella
customer_data_abbreviated_states
:SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
Hai creato un una pipeline di dati.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
Elimina il set di dati BigQuery
Per eliminare il set di dati BigQuery che hai creato in segui questi passaggi:
- Nella console Google Cloud, vai alla pagina BigQuery.
- Seleziona il set di dati
dis_user_guide
. - Fai clic su delete Elimina set di dati.
Elimina l'istanza Cloud Data Fusion
Segui queste istruzioni per eliminare l'istanza Cloud Data Fusion.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione creato per il tutorial.
Per eliminare il progetto:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Passaggi successivi
- Scopri di più su Cloud Data Fusion.