Progetta e crea una pipeline riutilizzabile


Questo tutorial mostra come creare una pipeline riutilizzabile che legga i dati da Cloud Storage, esegua controlli di qualità dei dati e scriva in Cloud Storage.

Le pipeline riutilizzabili hanno una struttura regolare, ma puoi modificare la configurazione di ciascun nodo della pipeline in base alle configurazioni fornite da un server HTTP. Ad esempio, una pipeline statica potrebbe leggere i dati di Cloud Storage, applicare trasformazioni e scrivere in una tabella di output BigQuery. Se vuoi che la tabella di trasformazione e di output di BigQuery cambino in base al file Cloud Storage letto dalla pipeline, crea una pipeline riutilizzabile.

Obiettivi

  • Utilizza il plug-in Argument Setter di Cloud Storage per consentire alla pipeline di leggere input diversi in ogni esecuzione.
  • Utilizza il plug-in Argument Setter di Cloud Storage per consentire alla pipeline di eseguire controlli di qualità diversi a ogni esecuzione.
  • Scrivi i dati di output di ogni esecuzione in Cloud Storage.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud possono essere idonei a una prova senza costi aggiuntivi.

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  5. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  6. Abilita le API Cloud Data Fusion, Cloud Storage, BigQuery, and Dataproc.

    Abilita le API

  7. Crea un'istanza di Cloud Data Fusion.

Quando utilizzi Cloud Data Fusion, utilizzi sia la console Google Cloud sia l'interfaccia web separata di Cloud Data Fusion. Nella console Google Cloud, puoi creare un progetto della console Google Cloud e creare ed eliminare istanze di Cloud Data Fusion. Nell'interfaccia web di Cloud Data Fusion, puoi utilizzare le varie pagine, ad esempio Pipeline Studio o Wrangler, per utilizzare le funzionalità di Cloud Data Fusion.

  1. Nella console Google Cloud, apri la pagina Istanze.

    Apri la pagina Istanze

  2. Nella colonna Azioni per l'istanza, fai clic sul link Visualizza istanza. L'interfaccia web di Cloud Data Fusion si apre in una nuova scheda del browser.

Esegui il deployment del plug-in Argument Setter di Cloud Storage

  1. Nell'interfaccia web di Cloud Data Fusion, vai alla pagina Studio.

  2. Nel menu Azioni, fai clic su Setter argomento GCS.

Lettura da Cloud Storage

  1. Nell'interfaccia web di Cloud Data Fusion, vai alla pagina Studio.
  2. Fai clic su Origine e seleziona Cloud Storage. Il nodo per un'origine Cloud Storage viene visualizzato nella pipeline.
  3. Nel nodo Cloud Storage, fai clic su Proprietà.

  4. Inserisci un nome nel campo Nome riferimento.

  5. Nel campo Percorso, inserisci ${input.path}. Questa macro controlla quale sarà il percorso di input di Cloud Storage nelle diverse esecuzioni della pipeline.

  6. Nel riquadro Schema di output a destra, rimuovi il campo offset dallo schema di output facendo clic sull'icona del cestino nella riga del campo dell'offset.

  7. Fai clic su Convalida e risolvi eventuali errori.

  8. Fai clic sulla per uscire dalla finestra di dialogo Proprietà.

Trasforma i tuoi dati

  1. Nell'interfaccia web di Cloud Data Fusion, vai alla pipeline di dati nella pagina Studio.
  2. Nel menu a discesa Trasforma , seleziona Wrangler.
  3. Nel canvas di Pipeline Studio, trascina una freccia dal nodo Cloud Storage al nodo Wrangler.
  4. Vai al nodo Wrangler nella pipeline e fai clic su Proprietà.
  5. In Nome campo di immissione, inserisci body.
  6. Nel campo Recipe, inserisci ${directives}. Questa macro controlla quale sarà la logica di trasformazione nelle diverse esecuzioni della pipeline.
  7. Fai clic su Convalida e risolvi eventuali errori.
  8. Fai clic sulla per uscire dalla finestra di dialogo Proprietà.

Scrivi in Cloud Storage

  1. Nell'interfaccia web di Cloud Data Fusion, vai alla pipeline di dati nella pagina Studio.
  2. Nel menu a discesa Sink , seleziona Cloud Storage.
  3. Nel canvas di Pipeline Studio, trascina una freccia dal nodo Wrangler al nodo Cloud Storage appena aggiunto.
  4. Vai al nodo del sink di Cloud Storage nella pipeline e fai clic su Proprietà.
  5. Inserisci un nome nel campo Nome riferimento.
  6. Nel campo Percorso, inserisci il percorso di un bucket Cloud Storage nel tuo progetto, in cui la pipeline può scrivere i file di output. Se non hai un bucket Cloud Storage, creane uno.
  7. Fai clic su Convalida e risolvi eventuali errori.
  8. Fai clic sulla per uscire dalla finestra di dialogo Proprietà.

Impostare gli argomenti delle macro

  1. Nell'interfaccia web di Cloud Data Fusion, vai alla pipeline di dati nella pagina Studio.
  2. Nel menu a discesa Condizioni e azioni, fai clic su Setter argomento GCS.
  3. Nel canvas di Pipeline Studio, trascina una freccia dal nodo Settore argomenti Cloud Storage al nodo origine di Cloud Storage.
  4. Vai al nodo Setter dell'argomento Cloud Storage nella tua pipeline e fai clic su Proprietà.
  5. Nel campo URL, inserisci l'URL seguente:

    gs://reusable-pipeline-tutorial/args.json
    

    L'URL corrisponde a un oggetto accessibile pubblicamente in Cloud Storage che include i seguenti contenuti:

    {
      "arguments" : [
        {
          "name": "input.path",
          "value": "gs://reusable-pipeline-tutorial/user-emails.txt"
        },
        {
          "name": "directives",
          "value": "send-to-error !dq:isEmail(body)"
        }
      ]
    }
    

    Il primo dei due argomenti è il valore di input.path. Il percorso gs://reusable-pipeline-tutorial/user-emails.txt è un oggetto accessibile pubblicamente in Cloud Storage che contiene i seguenti dati di test:

    alice@example.com
    bob@example.com
    craig@invalid@example.com
    

    Il secondo argomento è il valore di directives. Il valore send-to-error !dq:isEmail(body) configura Wrangler in modo da filtrare tutte le righe che non sono un indirizzo email valido. Ad esempio, craig@invalid@example.com viene filtrato ed escluso.

  6. Fai clic su Convalida per assicurarti che non siano presenti errori.

  7. Fai clic sulla per uscire dalla finestra di dialogo Proprietà.

Esegui il deployment e la pipeline

  1. Nella barra superiore della pagina Pipeline Studio, fai clic su Assegna un nome alla pipeline. Assegna un nome alla pipeline e fai clic su Salva.

  2. Fai clic su Esegui il deployment.

  3. Per aprire gli argomenti di runtime e visualizzare gli argomenti della macro input.path (runtime) e directives, fai clic sul menu a discesa accanto a Esegui.

    Lascia vuoti i campi dei valori per notificare a Cloud Data Fusion che il nodo Cloud Storage Argument Setter nella pipeline imposterà i valori di questi argomenti durante il runtime.

  4. Fai clic su Esegui.

Esegui la pulizia

Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Dopo aver completato il tutorial, pulisci le risorse che hai creato su Google Cloud in modo che non occupino quota e non ti vengano addebitati costi in futuro. Le sezioni seguenti descrivono come eliminare o disattivare queste risorse.

Elimina l'istanza di Cloud Data Fusion

Segui le istruzioni per eliminare l'istanza di Cloud Data Fusion.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi