Crea una pipeline per la campagna target

Scopri come utilizzare Cloud Data Fusion per pulire, trasformare ed elaborare per selezionare i candidati per una campagna target.


Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Procedura guidata:

Procedura guidata


Scenario

Vuoi creare materiali di marketing personalizzati per la promozione di una campagna in corso, e vorresti distribuire i materiali direttamente nelle caselle di posta di casa verso i tuoi clienti.

La tua campagna ha due vincoli:

  • Località: effettui consegne solo a clienti in California, Washington, e in Oregon.
  • Costo: per risparmiare carburante, le consegne vengono effettuate a clienti rapidamente accessibili case. Consegna solo ai clienti che vivono nelle avenue.

Questo tutorial mostra come generare l'elenco degli indirizzi dei clienti per la campagna. In questo tutorial imparerai a:

  1. Pulire i dati dei clienti, filtrando i clienti che vivono in una avenue in California, Washington o Oregon.
  2. Creare una pipeline che:

    • Unisca i dati dei clienti filtrati con un set di dati pubblico contenente le abbreviazioni degli stati.
    • Archivi i dati puliti e uniti in una tabella BigQuery su cui eseguire query (utilizzando l'interfaccia web di BigQuery) o da analizzare (utilizzando Looker Studio).

Obiettivi

  • Collegare Cloud Data Fusion a due origini dati
  • Applicare le trasformazioni di base
  • Unisci le due origini dati
  • Scrivere i dati di output in un sink

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.

    Enable the APIs

  7. Creare un'istanza Cloud Data Fusion.
    Questo tutorial presuppone che utilizzi il servizio Compute Engine predefinito .

Gestisci autorizzazioni

Crea e assegna le autorizzazioni e i ruoli personalizzati richiesti.

Crea un ruolo personalizzato e aggiungi le autorizzazioni

  1. Nella console Google Cloud, vai alla pagina Ruoli:

    Vai alla pagina Ruoli

  2. Fai clic su Crea ruolo.

  3. Nel campo Titolo, inserisci Custom Role-Tutorial.

  4. Fai clic su Aggiungi autorizzazioni.

  5. Nella finestra Aggiungi autorizzazioni, seleziona le seguenti autorizzazioni e fai clic su Aggiungi:

    • bigquery.datasets.create
    • bigquery.jobs.create
    • storage.buckets.create
  6. Fai clic su Crea.

Assegna un ruolo personalizzato al service account Compute Engine predefinito

  1. Vai alla pagina Istanze Cloud Data Fusion:

    Crea un'istanza

  2. Fai clic sul nome dell'istanza.

  3. Prendi nota del service account Dataproc predefinito. La pagina dei dettagli dell'istanza contiene queste informazioni.

    Di seguito è riportato il formato del nome del service account Dataproc:

    CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com.

    Scopri di più sugli account di servizio Dataproc.

  4. Vai alla pagina IAM:

    Vai alla pagina Ruoli.

  5. Nella barra Filtro, inserisci il nome del tuo service account Dataproc predefinito.

  6. Per il service account Compute Engine predefinito, fai clic su Modifica.

  7. Fai clic su Aggiungi un altro ruolo.

  8. Nel campo Seleziona un ruolo, scegli Ruolo personalizzato - Tutorial.

  9. Fai clic su Salva.

  10. Assicurati che al service account sia già assegnato il ruolo di Runner Cloud Data Fusion.

Preparare i dati dei clienti

Questo tutorial richiede i seguenti due set di dati di input, entrambi forniti con l'istanza Cloud Data Fusion.

  • Dati dei clienti di esempio: un file CSV denominato customers.csv.
  • Abbreviazioni degli stati: una tabella BigQuery denominata state_abbreviations.

Caricare i dati dei clienti

  1. Vai alla pagina Istanze Cloud Data Fusion:

    Vai a Istanze

  2. Per l'istanza Cloud Data Fusion in uso, fai clic su Visualizza istanza. L'interfaccia web di Cloud Data Fusion si apre in una nuova scheda.

  3. Fai clic su Wrangler. Viene visualizzata la pagina Wrangler.

  4. Nel riquadro Connections (Connessioni), fai clic su GCS > Sample Buckets (Bucket di esempio).

  5. Fai clic su campaign-tutorial.

  6. Fai clic su customers.csv.

  7. Nella finestra Parsing options (Opzioni di analisi), specifica quanto segue:

    • Format (Formato): csv
    • Enable quoted value (Abilita valore tra virgolette): False
    • Use first row as header (Usa la prima riga per l'intestazione): False
    • File-encoding (Codifica file): UTF-8
  8. Fai clic su Conferma. I dati dei clienti vengono caricati in una nuova scheda in Wrangler.

    Dati dei clienti caricati

Pulire i dati dei clienti

Questo passaggio prevede due attività secondarie:

  • Impostazione dello schema
  • Filtro dei dati dei clienti per presentare solo il pubblico di destinazione necessario

Imposta lo schema

Imposta lo schema dei dati assegnando nomi appropriati alle colonne della tabella. Per assegnare nomi più informativi alle colonne, ad esempio body_1 e body_2:

  1. Nel riquadro a destra, fai clic sulla scheda Columns (Colonne).
  2. Fai clic sul menu a discesa Column names (Nomi delle colonne) e seleziona Set all (Imposta tutti).
  3. Nella finestra di dialogo Bulk set column names (Imposta in blocco i nomi delle colonne), inserisci i seguenti nomi delle colonne separati da virgole:

    Name,StreetAddress,City,State,Country
    
  4. Fai clic su Applica.

Filtra i dati

Filtra i dati per visualizzare solo i clienti che vivono in California, Oregon o Washington.

Rimuovi tutte le righe che contengono valori diversi da questi stati:

  1. Fai clic sul menu a discesa della colonna State (Stato) e seleziona Filter (Filtro).
  2. Nella finestra di filtro:

    1. Fai clic su Keep rows (Conserva righe).
    2. Fai clic sul menu a discesa If (Se) e seleziona value matches regex (il valore corrisponde alla regex).
    3. Inserisci la seguente espressione regolare:

      ^(California|Oregon|Washington)$
      
    4. Fai clic su Applica.

    I valori nella colonna State (Stato) sono California, Oregon o Washington.

Filtra i dati per visualizzare solo i clienti che vivono nelle avenue. Conserva solo gli indirizzi che contengono la stringa Avenue:

  1. Fai clic sul menu a discesa della colonna StreetAddress (Indirizzo) e seleziona StreetAddress (Filtro).
  2. Nella finestra di filtro:
    1. Fai clic su Keep rows (Conserva righe).
    2. Fai clic sul menu a discesa If (Se), seleziona value contains (il valore contiene) e inserisci Avenue.
    3. Seleziona Ignore case (Ignora maiuscole/minuscole).
    4. Fai clic su Applica.

Prima di eseguire job di elaborazione parallela sull'intero set di dati, Wrangler mostra solo i primi 1000 valori del set di dati. Perché hai filtrato alcuni dati, solo alcuni clienti rimangono nel display di Wrangler.

Creare una pipeline batch

Hai pulito i dati e hai eseguito trasformazioni su un sottoinsieme di questi. Ora puoi creare una pipeline batch per eseguire trasformazioni sull'intero set di dati.

Cloud Data Fusion traduce la pipeline creata in Studio in un programma Apache Spark che esegue trasformazioni in parallelo su un cluster Dataproc temporaneo. Questo processo consente di eseguire trasformazioni complesse su grandi quantità di dati in modo scalabile e affidabile, senza dover gestire l'infrastruttura.

  1. Nella pagina Wrangler, fai clic su Create a pipeline (Crea una pipeline).
  2. Seleziona Batch pipeline (Pipeline batch). Si apre la pagina di Studio.
  3. Nella pagina di Studio, un nodo di origine GCSFile è connesso a un nodo Wrangler.

    Nodo GCSFile connesso al nodo Wrangler

    Le trasformazioni applicate nella pagina Wrangler vengono visualizzate nel nodo Wrangler nella pagina di Studio.

  4. Per visualizzare le trasformazioni applicate, tieni il puntatore sul nodo Wrangler e fai clic su Properties (Proprietà).

    Le trasformazioni applicate vengono visualizzate in Directives (Direttive).

    Visualizza trasformazioni applicate

  5. Fai clic su Validate (Convalida).

  6. Fai clic su Close (Chiudi).

Puoi applicare altre trasformazioni facendo clic su Elabora, che ti riporta alla pagina Wrangler. La trasformazione che hai aggiunto appare in Studio .

Ad esempio, ti rendi conto che la colonna Paese non è necessaria perché il valore è sempre USA. Per eliminare la colonna:

  1. Fai clic su Wrangler.
  2. Fai clic sulla Freccia giù accanto a Paese e seleziona Elimina colonna.
  3. Fai clic su Applica. La pagina Wrangler si chiude e nella pagina di Studio si apre la finestra Proprietà Wrangler. Nelle Istruzioni, viene visualizzato drop Country.
  4. Fai clic su Close (Chiudi).

Abbreviare i nomi degli stati

Il sistema di navigazione del veicolo per la distribuzione riconosce solo gli indirizzi che contengono nomi di stato abbreviati (CA, non California) e i dati dei clienti contengono nomi completi.

La tabella pubblica state_abbreviations di BigQuery contiene due colonne: una con i nomi completi degli stati e l'altra con i nomi abbreviati. Puoi utilizzare questa tabella per aggiornare i nomi degli stati nei dati dei clienti.

Visualizza i dati dei nomi degli stati in BigQuery

  1. In una scheda a parte, vai alla pagina di BigQuery Studio:

    Vai a BigQuery

  2. Fai clic su Crea query SQL e inserisci la query seguente nell'editor query:

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    
  3. Fai clic su Esegui.

    BigQuery mostra un elenco di nomi di stati con le relative abbreviazioni.

Accedere alla tabella BigQuery

Aggiungi un'origine nella pipeline che accederà alla tabella state_abbreviations di BigQuery.

  1. Vai alla pagina di Studio di Cloud Data Fusion ed espandi il menu Origine.
  2. Fai clic su BigQuery.

    Un nodo di origine BigQuery viene visualizzato nel canvas, insieme agli altri due nodi.

  3. Tieni il puntatore sul nodo di origine BigQuery e fai clic su Properties (Proprietà).

    1. Nel campo Dataset Project ID (ID progetto set di dati), inserisci dis-user-guide.
    2. Nel campo Reference Name (Nome riferimento), inserisci state_abbreviations.
    3. Nel campo Dataset (Set di dati), inserisci campaign_tutorial.
    4. Nel campo Table (Tabella), inserisci state_abbreviations.
  4. Per compilare lo schema della tabella da BigQuery, fai clic su Get schema (Ottieni schema).

  5. Fai clic su Close (Chiudi).

Unisci le due origini dati

Per generare un output contenente i dati dei clienti con nomi di stati abbreviati, unisci le due origini dati, i dati dei clienti e le abbreviazioni degli stati.

  1. Vai alla pagina di Studio di Cloud Data Fusion ed espandi il menu Analytics.
  2. Fai clic su Joiner.

    Nel canvas viene visualizzato un nodo Joiner, che rappresenta un'azione simile a un join SQL.

  3. Collega il nodo Wrangler e il nodo BigQuery al nodo Joiner: trascina una freccia di connessione sul bordo destro del nodo di origine e rilasciala sul nodo di destinazione.

    Unisci i nodi Wrangler e BigQuery al nodo Joiner

  4. Tieni il puntatore sul nodo Joiner e fai clic su Properties (Proprietà).

    1. Nella sezione Fields (Campi), espandi Wrangler e BigQuery.

      1. Deseleziona la casella di controllo state in Wrangler.
      2. Deseleziona la casella di controllo name in BigQuery perché ti interessa avere solo il nome dello stato abbreviato e non il nome completo.
      3. Mantieni selezionata la casella di controllo abbreviation in BigQuery e cambia l'alias in State.

        Proprietà del nodo Joiner

    2. Nel campo Join Type (Tipo di join), lascia il valore su Outer. Per Required inputs (Input obbligatori), seleziona la casella di controllo Wrangler.

    3. Nella sezione Join condition (Condizione di unione), seleziona State (Stato) per Wrangler. Per BigQuery, seleziona name (nome).

    4. Genera lo schema dall'unione che risulta. Fai clic su Get Schema (Ottieni schema).

    5. Fai clic su Validate (Convalida).

    6. Fai clic su Close (Chiudi).

Archivia l'output in BigQuery

Archivia il risultato della pipeline in una tabella BigQuery. I dati verranno archiviati in un sink.

  1. Vai alla pagina di Studio di Cloud Data Fusion ed espandi Sink.
  2. Fai clic su BigQuery.
  3. Collega il nodo Joiner al nodo BigQuery.

    Collega il nodo Joiner e il nodo BigQuery

  4. Tieni il puntatore sul nodo BigQuery e fai clic su Properties (Proprietà).

    1. Nel campo Dataset (Set di dati), inserisci dis_user_guide.
    2. Nel campo Table (Tabella), seleziona customer_data_abbreviated_states.
    3. Fai clic su Close (Chiudi).

Esegui il deployment della pipeline ed eseguila

  1. Nella pagina di Studio, fai clic su Assegna un nome alla pipeline e inserisci CampaignPipeline.
  2. Fai clic su Salva.
  3. Nell'angolo in alto a destra, fai clic su Esegui il deployment.
  4. Al termine del deployment, fai clic su Esegui.

L'esecuzione della pipeline può richiedere alcuni minuti. Mentre attendi, puoi osservare lo Stato della transizione della pipeline:In fase di provisioning >. In fase di avvio >. In corso >. In fase di deprovisioning >. Operazione riuscita.

Visualizza i risultati

  1. Nella console Google Cloud, vai alla pagina BigQuery:

    Vai a BigQuery

  2. Fai clic su Crea query SQL.

  3. Esegui una query della tabella customer_data_abbreviated_states:

    SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
    

    Visualizza i risultati

Hai creato un una pipeline di dati.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Elimina il set di dati BigQuery

Per eliminare il set di dati BigQuery che hai creato in segui questi passaggi:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Seleziona il set di dati dis_user_guide.
  3. Fai clic su Elimina set di dati.

Elimina l'istanza Cloud Data Fusion

Segui queste istruzioni per eliminare l'istanza Cloud Data Fusion.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione creato per il tutorial.

Per eliminare il progetto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Passaggi successivi