Crea una pipeline della campagna target

Scopri come utilizzare Cloud Data Fusion per pulire, trasformare ed elaborare i dati dei clienti e selezionare i candidati per una campagna target.


Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Aiuto:

Guidami


Scenario

Vuoi creare materiali di marketing personalizzati per una promozione in corso di una campagna e vuoi distribuire i materiali direttamente nelle caselle di posta domestiche dei tuoi clienti.

La campagna presenta due vincoli:

  • Località: effettui consegne solo a clienti in California, Washington e Oregon.
  • Costo: per risparmiare carburante, effettui consegne a domicilio dei clienti rapidamente accessibili. Consegni solo a clienti che vivono in strada.

Questo tutorial mostra come generare l'elenco di indirizzi dei clienti per la campagna. In questo tutorial imparerai a:

  1. Ripulisci i dati dei clienti: filtra i clienti che vivono in un viale in California, Washington o Oregon.
  2. Crea una pipeline che:

    • Unisce i dati dei clienti filtrati a un set di dati pubblico contenente le abbreviazioni degli stati.
    • Archivia i dati puliti e uniti in una tabella BigQuery su cui puoi eseguire query (utilizzando l'interfaccia web di BigQuery) o analizzare (utilizzando Looker Studio).

Obiettivi

  • Connetti Cloud Data Fusion a due origini dati
  • Applicare le trasformazioni di base
  • Unire le due origini dati
  • Scrivi i dati di output in un sink

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  5. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  6. Abilita le API Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc.

    Abilita le API

  7. Crea un'istanza di Cloud Data Fusion.
    Questo tutorial presuppone che utilizzi l'account di servizio Compute Engine predefinito.

Gestisci autorizzazioni

Crea e assegna le autorizzazioni e i ruoli personalizzati richiesti.

Creare un ruolo personalizzato e aggiungere autorizzazioni

  1. Nella console Google Cloud, vai alla pagina Ruoli:

    Vai alla pagina Ruoli

  2. Fai clic su Crea ruolo.

  3. Nel campo Title (Titolo), inserisci Custom Role-Tutorial.

  4. Fai clic su Aggiungi autorizzazioni.

  5. Nella finestra Aggiungi autorizzazioni, seleziona le seguenti autorizzazioni e fai clic su Aggiungi:

    • bigquery.datasets.create
    • bigquery.jobs.create
    • storage.buckets.create
  6. Fai clic su Crea.

Assegna un ruolo personalizzato all'account di servizio Compute Engine predefinito

  1. Vai alla pagina Istanze di Cloud Data Fusion:

    Crea un'istanza

  2. Fai clic sul nome dell'istanza.

  3. Prendi nota dell'account di servizio Dataproc predefinito. La pagina dei dettagli dell'istanza contiene queste informazioni.

    Di seguito è riportato il formato del nome dell'account di servizio Dataproc:

    CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com.

    Scopri di più sugli account di servizio Dataproc.

  4. Vai alla pagina IAM:

    Vai alla pagina Ruoli

  5. Nella barra Filtro, inserisci il nome del tuo account di servizio Dataproc predefinito.

  6. Per l'account di servizio Compute Engine predefinito, fai clic su Modifica.

  7. Fai clic su Aggiungi un altro ruolo.

  8. Nel campo Seleziona un ruolo, scegli Tutorial ruolo personalizzato.

  9. Fai clic su Salva.

  10. Assicurati che all'account di servizio sia già assegnato il ruolo Esecutore Cloud Data Fusion.

Prepara i dati dei clienti

Questo tutorial richiede i seguenti due set di dati di input, entrambi forniti con l'istanza di Cloud Data Fusion:

  • Dati dei clienti di esempio: un file CSV denominato customers.csv.
  • Abbreviazioni di stato: una tabella BigQuery denominata state_abbreviations.

Carica i dati dei clienti

  1. Vai alla pagina Istanze di Cloud Data Fusion:

    Vai a Istanze

  2. Per l'istanza di Cloud Data Fusion in uso, fai clic su Visualizza istanza. L'interfaccia web di Cloud Data Fusion si apre in una nuova scheda.

  3. Fai clic su Wrangler. Si apre la pagina Wrangler.

  4. Nel riquadro Connessioni, fai clic su GCS > Bucket di esempio.

  5. Fai clic su campaign-tutorial.

  6. Fai clic su customers.csv.

  7. Nella finestra Opzioni di analisi, specifica quanto segue:

    • Formato: csv
    • Abilita valore tra virgolette: False
    • Usa la prima riga per l'intestazione: False
    • Codifica file: UTF-8
  8. Fai clic su Conferma. I dati dei clienti vengono caricati in una nuova scheda in Wrangler.

    Dati dei clienti caricati

Pulisci i dati dei clienti

Contiene due attività secondarie:

  • Impostazione dello schema
  • Filtrare i dati dei clienti per presentare solo il pubblico di destinazione necessario

Impostare lo schema

Imposta lo schema dei dati assegnando nomi appropriati alle colonne della tabella. Per assegnare alle colonne, come body_1 e body_2, nomi più informativi, segui questi passaggi:

  1. Nel riquadro a destra, fai clic sulla scheda Colonne.
  2. Fai clic sul menu a discesa Nomi delle colonne e seleziona Imposta tutti.
  3. Nella finestra di dialogo Nomi di colonna per l'impostazione collettiva, inserisci i seguenti nomi di colonna separati da virgole:

    Name,StreetAddress,City,State,Country
    
  4. Fai clic su Applica.

Filtrare i dati

Filtra i dati per visualizzare solo i clienti che vivono in California, Oregon o Washington.

Rimuovi tutte le righe che contengono valori diversi da questi stati:

  1. Fai clic sul menu a discesa della colonna Stato e seleziona Filtro.
  2. Nella finestra del filtro, procedi nel seguente modo:

    1. Fai clic su Conserva le righe.
    2. Fai clic sul menu a discesa Se e seleziona il valore corrisponde alla regex.
    3. Inserisci la seguente espressione regolare:

      ^(California|Oregon|Washington)$
      
    4. Fai clic su Applica.

    I valori nella colonna Stato sono California, Oregon o Washington.

Filtra i dati per visualizzare solo i clienti che vivono nelle vicinanze. Conserva solo gli indirizzi contenenti la stringa avenue:

  1. Fai clic sul menu a discesa della colonna StreetAddress e seleziona Filter (Filtro).
  2. Nella finestra del filtro, procedi nel seguente modo:

    1. Fai clic su Conserva le righe.
    2. Fai clic sul menu a discesa Se, seleziona il valore contiene e inserisci Avenue.
    3. Seleziona Ignora maiuscole/minuscole.
    4. Fai clic su Applica.

      Filtrare i dati

Prima di eseguire job di elaborazione parallela sull'intero set di dati, Wrangler mostra solo i primi 1000 valori del set di dati. Poiché hai filtrato alcuni dati, solo alcuni clienti rimangono nella visualizzazione Wrangler.

Crea una pipeline batch

Hai pulito i dati e hai eseguito trasformazioni su un sottoinsieme di dati. Ora puoi creare una pipeline batch per eseguire trasformazioni sull'intero set di dati.

Cloud Data Fusion converte la pipeline creata in Studio in un programma Apache Spark che esegue le trasformazioni in parallelo su un cluster Dataproc temporaneo. Questo processo ti consente di eseguire trasformazioni complesse su grandi quantità di dati in modo scalabile e affidabile, senza dover gestire l'infrastruttura.

  1. Nella pagina di Wrangler, fai clic su Crea una pipeline.
  2. Seleziona pipeline in modalità batch. Si apre la pagina di Studio.
  3. In alto a sinistra, assicurati che sia visualizzato pipeline di dati - Batch come tipo di pipeline.

    Tipo di pipeline

    Nella pagina di Studio, un nodo di origine GCSFile è connesso a un nodo Wrangler.

    Nodo GCSFile connesso al nodo Wrangler

    Le trasformazioni applicate alla pagina Wrangler vengono visualizzate nel nodo Wrangler della pagina di Studio.

  4. Per visualizzare le trasformazioni applicate, tieni il puntatore sul nodo Wrangler e fai clic su Proprietà.

    Le trasformazioni applicate vengono visualizzate nelle Direttiva.

    Visualizza trasformazioni applicate

  5. Fai clic su Convalida.

  6. Fai clic su Chiudi.

Puoi applicare altre trasformazioni facendo clic su Wrangle per tornare alla pagina di Wrangler. La trasformazione aggiunta viene visualizzata nella pagina di Studio.

Ad esempio, ti rendi conto che la colonna Country non è necessaria perché il valore è sempre "USA". Per eliminare la colonna:

  1. Fai clic su Wrangle.
  2. Fai clic sulla Freccia giù accanto a Paese e seleziona Elimina colonna.
  3. Fai clic su Applica. La pagina Wrangler si chiude e la finestra Proprietà di Wrangler si apre sulla pagina di Studio. Nelle Direttiva, viene visualizzato drop Country.
  4. Fai clic su Chiudi.

Abbrevia i nomi degli stati

Il sistema di navigazione del veicolo per la consegna riconosce solo gli indirizzi che contengono nomi di stato abbreviati (CA, non California) e i dati dei clienti contengono nomi completi.

La tabella pubblica state_abbreviations di BigQuery contiene due colonne: una con i nomi completi e l'altra con i nomi degli stati abbreviati. Puoi utilizzare questa tabella per aggiornare i nomi degli stati nei dati dei clienti.

Visualizzare i dati relativi ai nomi degli stati in BigQuery

  1. In una scheda separata, vai alla pagina di BigQuery Studio:

    Vai a BigQuery

  2. Fai clic su Crea query SQL e inserisci la query seguente nell'Editor query:

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    
  3. Fai clic su Run (Esegui).

    Vengono visualizzati i nomi degli stati e le relative abbreviazioni.

    Nomi degli stati e relative abbreviazioni

Accedere alla tabella BigQuery

Aggiungi un'origine alla pipeline che accederà alla tabella state_abbreviations di BigQuery.

  1. Vai alla pagina di Cloud Data Fusion Studio ed espandi il menu Origine.
  2. Fai clic su BigQuery.

    Un nodo di origine BigQuery viene visualizzato sul canvas, insieme agli altri due nodi.

  3. Tieni il puntatore sul nodo di origine BigQuery e fai clic su Proprietà.

    1. Nel campo ID progetto set di dati, inserisci dis-user-guide.
    2. Nel campo Nome riferimento, inserisci state_abbreviations.
    3. Nel campo Set di dati, inserisci campaign_tutorial.
    4. Nel campo Tabella, inserisci state_abbreviations.
  4. Per compilare lo schema della tabella da BigQuery, fai clic su Ottieni schema.

  5. Fai clic su Chiudi.

Unire le due origini dati

Per generare un output contenente i dati dei clienti con nomi degli stati abbreviati, unisci le due origini dati, i dati dei clienti e le abbreviazioni degli stati.

  1. Vai alla pagina di Cloud Data Fusion Studio ed espandi il menu Analytics.
  2. Fai clic su Joiner.

    Sul canvas viene visualizzato un nodo Joiner, che rappresenta un'azione simile a un join SQL.

  3. Collega i nodi Wrangler e BigQuery al nodo Joiner: trascina una freccia di connessione sul bordo destro del nodo di origine e rilascialo sul nodo di destinazione.

    Unisci nodi Wrangler e BigQuery al nodo Joiner

  4. Tieni il puntatore sul nodo Joiner e fai clic su Proprietà.

    1. Nella sezione Campi, espandi Wrangler e BigQuery.

      1. Deseleziona la casella di controllo state.
      2. Deseleziona la casella di controllo Nome BigQuery perché vuoi solo il nome dello stato abbreviato e non il nome completo.
      3. Mantieni selezionata la casella di controllo Abbreviazione di BigQuery e cambia l'alias in State.

        Proprietà del nodo joiner

    2. Nel campo Join Type (Tipo di join), lascia il valore su Outer. In Input obbligatori, seleziona la casella di controllo Wrangler.

    3. Nella sezione Condizione di join, per Wrangler, seleziona State. Per BigQuery, seleziona Name.

    4. Genera lo schema del join risultante. Fai clic su Ottieni schema.

    5. Fai clic su Convalida.

    6. Fai clic su Chiudi.

Archiviare l'output in BigQuery

Archivia il risultato della pipeline in una tabella BigQuery. La posizione in cui archivi i dati è denominata sink.

  1. Vai alla pagina di Cloud Data Fusion Studio ed espandi Sink.
  2. Fai clic su BigQuery.
  3. Collega il nodo Joiner al nodo BigQuery.

    Connetti il nodo Joiner e il nodo BigQuery

  4. Tieni il puntatore sul nodo BigQuery e fai clic su Proprietà.

    1. Nel campo Set di dati, inserisci dis_user_guide.
    2. Nel campo Tabella, seleziona customer_data_abbreviated_states.
    3. Fai clic su Chiudi.

Esegui il deployment della pipeline

  1. Nella pagina di Studio, fai clic su Assegna un nome alla pipeline e inserisci CampaignPipeline.

    Esegui il deployment e la pipeline

  2. Fai clic su Ok.

  3. Nell'angolo in alto a destra, fai clic su Esegui il deployment.

  4. Al termine del deployment, fai clic su Esegui.

L'esecuzione della pipeline può richiedere alcuni minuti. Nell'attesa, puoi osservare lo stato della transizione della pipeline da Provisioning > Avvio > In esecuzione > Deprovisioning > Riuscito.

Visualizza i risultati

  1. Nella console Google Cloud, vai alla pagina di BigQuery:

    Vai a BigQuery

  2. Fai clic su Crea query SQL.

  3. Esegui una query sulla tabella customer_data_abbreviated_states:

    SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
    

    Visualizza i risultati

Hai creato una pipeline di dati.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi:

Elimina il set di dati BigQuery

Per eliminare il set di dati BigQuery che hai creato in questo tutorial, segui questi passaggi:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Seleziona il set di dati dis_user_guide.
  3. Fai clic su Elimina set di dati.

Elimina l'istanza di Cloud Data Fusion

Segui queste istruzioni per eliminare l'istanza di Cloud Data Fusion.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi