Progettare e creare una pipeline riutilizzabile


Questo tutorial mostra come creare una pipeline riutilizzabile che legga i dati da Cloud Storage, esegua controlli di qualità dei dati e scriva in Cloud Storage.

Le pipeline riutilizzabili hanno una struttura regolare, ma puoi modificare configurazione di ciascun nodo della pipeline in base alle configurazioni fornite da un server HTTP. Ad esempio, un potrebbe leggere i dati da Cloud Storage, applicare trasformazioni e scrivere in una tabella di output BigQuery. Se vuoi che la trasformazione e la tabella di output BigQuery cambino in base al file Cloud Storage letto dalla pipeline, crea una pipeline riutilizzabile.

Obiettivi

  • Usa il plug-in Setter dell'argomento di Cloud Storage per consentire alla pipeline di leggere diversi a ogni esecuzione.
  • Utilizza il plug-in Impostazione parametri Cloud Storage per consentire alla pipeline di eseguire diversi controlli di qualità in ogni esecuzione.
  • Scrivi i dati di output di ogni esecuzione in Cloud Storage.

Costi

In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud potrebbero essere idonei per una prova gratuita.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, Cloud Storage, BigQuery, and Dataproc APIs.

    Enable the APIs

  7. Creare un'istanza Cloud Data Fusion.

Quando utilizzi Cloud Data Fusion, utilizzi sia la console Google Cloud e l'interfaccia web separata di Cloud Data Fusion. Nella console Google Cloud, possono creare un progetto nella console Google Cloud, di Cloud Data Fusion. Nell'interfaccia web di Cloud Data Fusion, puoi utilizzare le varie pagine, come Pipeline Studio o Wrangler, per utilizzare Funzionalità di Cloud Data Fusion.

  1. Nella console Google Cloud, apri la pagina Istanze.

    Aperto alla pagina Istanze

  2. Nella colonna Azioni per l'istanza, fai clic su Visualizza istanza . L'interfaccia web di Cloud Data Fusion si apre in una nuova scheda del browser.

Esegui il deployment del plug-in Argument Setter di Cloud Storage

  1. Nell'interfaccia web di Cloud Data Fusion, vai alla pagina Studio.

  2. Nel menu Azioni, fai clic su Impostatore di argomenti GCS.

Leggi da Cloud Storage

  1. Nell'interfaccia web di Cloud Data Fusion, vai alla pagina Studio.
  2. Fai clic su Origine e seleziona Cloud Storage. Il nodo per un'origine Cloud Storage viene visualizzato nella pipeline.
  3. Sul nodo Cloud Storage, fai clic su Proprietà.

  4. Nel campo Nome di riferimento, inserisci un nome.

  5. Nel campo Percorso, inserisci ${input.path}. Questa macro controlla cosa il percorso di input di Cloud Storage si troverà tra le diverse esecuzioni della pipeline.

  6. Nel riquadro Schema di output a destra, rimuovi il campo offset dallo schema di output facendo clic sull'icona del cestino nella riga del campo offset.

  7. Fai clic su Convalida e correggi gli errori.

  8. Fai clic su per uscire dalla finestra di dialogo Proprietà.

Trasforma i tuoi dati

  1. Nell'interfaccia web di Cloud Data Fusion, vai alla pipeline di dati nella pagina Studio.
  2. Nel menu a discesa Trasforma , seleziona Wrangler.
  3. Nel canvas di Pipeline Studio, trascina una freccia dal nodo Cloud Storage al nodo Wrangler.
  4. Vai al nodo Wrangler nella pipeline e fai clic su Proprietà.
  5. In Nome campo di immissione, inserisci body.
  6. Nel campo Ricetta, inserisci ${directives}. Questa macro controlla quale la logica di trasformazione sarà nelle diverse esecuzioni della pipeline.
  7. Fai clic su Convalida e correggi gli errori.
  8. Fai clic su per uscire dalla finestra di dialogo Proprietà.

Scrivi in Cloud Storage

  1. Nell'interfaccia web di Cloud Data Fusion, vai alla pipeline di dati nella pagina Studio.
  2. Nel menu a discesa Destinazione , seleziona Cloud Storage.
  3. Nel canvas di Pipeline Studio, trascina una freccia dal nodo Wrangler verso il nodo Cloud Storage che hai appena aggiunto.
  4. Vai al nodo di destinazione Cloud Storage nella pipeline e fai clic su Proprietà.
  5. Nel campo Nome di riferimento, inserisci un nome.
  6. Nel campo Percorso, inserisci il percorso di un bucket Cloud Storage nel tuo progetto in cui la pipeline può scrivere i file di output. Se non hai un bucket Cloud Storage, creane uno.
  7. Fai clic su Convalida e correggi gli errori.
  8. Fai clic su per uscire dalla finestra di dialogo Proprietà.

Imposta gli argomenti delle macro

  1. Nell'interfaccia web di Cloud Data Fusion, vai alla pipeline di dati nella pagina Studio.
  2. In Nel menu a discesa Condizioni e azioni, fai clic su Impostatore di argomenti GCS.
  3. Nel canvas di Pipeline Studio, trascina una freccia dal nodo dell'impostazione di argomento di Cloud Storage a nel nodo di origine di Cloud Storage.
  4. Vai al nodo Impostazione parametri Cloud Storage nella pipeline e fai clic su Proprietà.
  5. Nel campo URL, inserisci il seguente URL:

    gs://reusable-pipeline-tutorial/args.json
    

    L'URL corrisponde a un oggetto accessibile pubblicamente in Cloud Storage che contiene i seguenti contenuti:

    {
      "arguments" : [
        {
          "name": "input.path",
          "value": "gs://reusable-pipeline-tutorial/user-emails.txt"
        },
        {
          "name": "directives",
          "value": "send-to-error !dq:isEmail(body)"
        }
      ]
    }
    

    Il primo dei due argomenti è il valore di input.path. Il percorso gs://reusable-pipeline-tutorial/user-emails.txt è un oggetto accessibile pubblicamente che contiene i seguenti dati di test:

    alice@example.com
    bob@example.com
    craig@invalid@example.com
    

    Il secondo argomento è il valore di directives. Il valore send-to-error !dq:isEmail(body) configura Wrangler per filtrare tutte le linee indirizzi email non validi. Ad esempio, craig@invalid@example.com viene filtrato ed escluso.

  6. Fai clic su Convalida per assicurarti che non ci siano errori.

  7. Fai clic su per uscire dalle Proprietà .

Esegui il deployment della pipeline ed eseguila

  1. Nella barra superiore della pagina Pipeline Studio, fai clic su Assegna un nome alla pipeline. Assegna un nome alla pipeline e fai clic su Salva.

  2. Fai clic su Esegui il deployment.

  3. Per aprire gli argomenti di runtime e visualizzare la macro (runtime) input.path e directives argomenti, fai clic su menu a discesa accanto a Esegui.

    Lascia vuoti i campi dei valori per notificare a Cloud Data Fusion che Il nodo di impostazione dell'argomento Cloud Storage nella pipeline imposterà i valori di questi argomenti durante il runtime.

  4. Fai clic su Esegui.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Al termine del tutorial, elimina le risorse che hai creato su Google Cloud in modo che non occupino quota e non ti vengano addebitate in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste impostazioni Google Cloud.

Elimina l'istanza Cloud Data Fusion

Segui le istruzioni per eliminare l'istanza Cloud Data Fusion.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione creato per il tutorial.

Per eliminare il progetto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Passaggi successivi