Creazione di una pipeline riutilizzabile

Questo tutorial mostra come creare una pipeline riutilizzabile che legge i dati da Cloud Storage, esegue controlli di qualità dei dati e scrive in Cloud Storage.

Le pipeline riutilizzabili hanno una struttura delle pipeline standard, ma puoi modificare la configurazione di ciascun nodo pipeline in base alle configurazioni fornite da un server HTTP. Ad esempio, una pipeline statica potrebbe leggere i dati da Cloud Storage, applicare le trasformazioni e scrivere in una tabella di output BigQuery. Se invece vuoi che la trasformazione e la tabella di output di BigQuery vengano modificate in base al file Cloud Storage letto dalla pipeline, crea una pipeline riutilizzabile.

Obiettivi

  • Usa il plug-in Argument Setter per consentire alla pipeline di leggere input diversi a ogni esecuzione.
  • Utilizza il plug-in Argument Setter per consentire alla pipeline di eseguire controlli di qualità diversi a ogni esecuzione.
  • Scrivi i dati di output di ogni esecuzione su Cloud Storage.

Costi

Questo tutorial utilizza i seguenti componenti fatturabili di Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud possono beneficiare di una prova gratuita.

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Cloud. Scopri come verificare se la fatturazione è abilitata su un progetto.

  4. Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  5. Assicurati che la fatturazione sia attivata per il tuo progetto Cloud. Scopri come verificare se la fatturazione è abilitata su un progetto.

  6. Abilita le API Cloud Data Fusion, Cloud Storage, and Cloud Dataproc.

    Abilita le API

  7. Crea un'istanza di Cloud Data Fusion.

Quando utilizzi Cloud Data Fusion, utilizzi sia Google Cloud Console sia l'interfaccia utente separata di Cloud Data Fusion. In Google Cloud Console, puoi creare un progetto per Google Cloud Console e creare ed eliminare le istanze di Cloud Data Fusion. Nell'interfaccia utente di Cloud Data Fusion, puoi utilizzare le varie pagine, come Pipeline Studio o Wrangler, per utilizzare le funzionalità di Cloud Data Fusion.

  1. In Google Cloud Console, apri la pagina Istanze.

    Apri la pagina Istanze

  2. Nella colonna Azioni per l'istanza, fai clic sul link Visualizza istanza. La UI di Cloud Data Fusion si apre in una nuova scheda del browser.

Esegui il deployment del plug-in Argument Setter

  1. Nell'interfaccia utente web di Cloud Data Fusion, fai clic su Hub in alto a destra.

  2. Fai clic sul plug-in per le azioni del set di argomenti e quindi su Esegui il deployment.

  3. Nella finestra Esegui il deployment che si apre, fai clic su Fine.

  4. Fai clic su Crea una pipeline. Si apre la pagina Pipeline Studio.

Lettura da Cloud Storage

  1. Nel riquadro a sinistra della pagina Pipeline Studio, utilizzando il menu a discesa Origine , seleziona Google Cloud Storage.
  2. Passa il mouse sopra la scheda sorgente Cloud Storage e fai clic sul pulsante Proprietà visualizzato.
  3. Inserisci un nome nel campo Nome del riferimento.
  4. Nel campo Percorso, inserisci ${input.path}. Questa macro controlla quale sarà il percorso di input di Cloud Storage nelle diverse esecuzioni della pipeline.
  5. Nel riquadro Schema di output destro, rimuovi il campo offset dallo schema di output facendo clic sull'icona del cestino nella riga del campo offset.
  6. Fai clic su Convalida per verificare che non siano presenti errori.
  7. Fai clic sul pulsante X per uscire dalla finestra di dialogo Proprietà.

Trasforma i tuoi dati

  1. Nel riquadro a sinistra della pagina Pipeline Studio, utilizzando il menu a discesa Transform , seleziona Wrangler.
  2. Nel canvas di Pipeline Studio, trascina una freccia dalla scheda Cloud Storage alla scheda Wrangler.
  3. Passa il mouse sopra la scheda Wrangler e fai clic sul pulsante Proprietà visualizzato.
  4. Nel campo Nome campo di immissione, inserisci body.
  5. Nel campo Ricetta, inserisci ${directives}. Questa macro controlla quale sarà la logica di trasformazione nelle diverse esecuzioni della pipeline.
  6. Fai clic su Convalida per verificare che non siano presenti errori.
  7. Fai clic sul pulsante X per uscire dalla finestra di dialogo Proprietà.

Scrittura in Cloud Storage

  1. Nel riquadro a sinistra della pagina Pipeline Studio, utilizzando il menu a discesa Sink , seleziona Cloud Storage.
  2. Nel canvas di Pipeline Studio, trascina una freccia dalla scheda Wrangler alla scheda Cloud Storage appena aggiunta.
  3. Passa il mouse sopra la scheda sink di Cloud Storage e fai clic sul pulsante Proprietà visualizzato.
  4. Inserisci un nome nel campo Nome del riferimento.
  5. Nel campo Percorso, inserisci il percorso di un bucket Cloud Storage nel progetto, dove la pipeline può scrivere i file di output. Se non hai un bucket Cloud Storage, creane uno.
  6. Fai clic su Convalida per verificare che non siano presenti errori.
  7. Fai clic sul pulsante X per uscire dal menu Proprietà.

Imposta gli argomenti della macro

  1. Nel riquadro a sinistra della pagina Pipeline Studio, utilizzando il menu a discesa Condizioni e azioni, seleziona il plug-in Argoment Setter.
  2. Nel canvas di Pipeline Studio, trascina una freccia dalla scheda Argument Setter alla scheda Cloud source di Cloud Storage.
  3. Passa il mouse sopra la scheda Argomento e fai clic sul pulsante Proprietà visualizzato.
  4. Nel campo URL, inserisci quanto segue.

    https://storage.googleapis.com/reusable-pipeline-tutorial/args.json
    

    L'URL corrisponde a un oggetto accessibile pubblicamente in Cloud Storage, con i seguenti contenuti:

    {
      "arguments" : [
        {
          "name": "input.path",
          "value": "gs://reusable-pipeline-tutorial/user-emails.txt"
        },
        {
          "name": "directives",
          "value": "send-to-error !dq:isEmail(body)"
        }
      ]
    }
    

    Il primo dei due argomenti è il valore per input.path. Il percorso gs://reusable-pipeline-tutorial/user-emails.txt è un oggetto accessibile pubblicamente in Cloud Storage che contiene i seguenti dati di test:

    alice@example.com
    bob@example.com
    craig@invalid@example.com
    

    Il secondo argomento è il valore per directives. Il valore send-to-error !dq:isEmail(body) configura Wrangler in modo da filtrare le righe non un indirizzo email valido. Ad esempio, il filtro craig@invalid@example.com viene filtrato.

  5. Fai clic su Convalida per verificare che non siano presenti errori.

  6. Fai clic sul pulsante X per uscire dal menu Proprietà.

Esegui il deployment ed esegui la pipeline

  1. Nella barra superiore della pagina Pipeline Studio, fai clic su Assegna un nome alla pipeline. Assegna un nome alla pipeline e fai clic su Salva.
  2. Fai clic su Esegui il deployment.
  3. Accanto a Esegui, fai clic sul menu a discesa per aprire gli argomenti di runtime e visualizzare gli argomenti macro (runtime) input.path e directives. Lascia vuoti i campi del valore per informare Cloud Cloud Fusion che il nodo Argument Setter nella pipeline imposterà i valori di questi argomenti durante il runtime.
  4. Fai clic su Esegui.

Esegui la pulizia

Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Dopo aver completato il tutorial, esegui la pulizia delle risorse che hai creato su Google Cloud in modo che non utilizzino la quota e che non ti venga addebitato nulla in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina l'istanza Cloud Data Fusion

Segui le istruzioni per eliminare l'istanza Cloud Data Fusion.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. In Cloud Console, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto da eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi