Questo tutorial mostra come creare una pipeline riutilizzabile che legga i dati da Cloud Storage, esegua controlli di qualità dei dati e scriva in Cloud Storage.
Le pipeline riutilizzabili hanno una struttura regolare, ma puoi modificare la configurazione di ciascun nodo della pipeline in base alle configurazioni fornite da un server HTTP. Ad esempio, una pipeline statica potrebbe leggere i dati di Cloud Storage, applicare trasformazioni e scrivere in una tabella di output BigQuery. Se vuoi che la tabella di trasformazione e di output di BigQuery cambino in base al file Cloud Storage letto dalla pipeline, crea una pipeline riutilizzabile.
Obiettivi
- Utilizza il plug-in Argument Setter di Cloud Storage per consentire alla pipeline di leggere input diversi in ogni esecuzione.
- Utilizza il plug-in Argument Setter di Cloud Storage per consentire alla pipeline di eseguire controlli di qualità diversi a ogni esecuzione.
- Scrivi i dati di output di ogni esecuzione in Cloud Storage.
Costi
In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:
- Cloud Data Fusion
- Cloud Storage
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il Calcolatore prezzi.
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API Cloud Data Fusion, Cloud Storage, BigQuery, and Dataproc.
- Crea un'istanza di Cloud Data Fusion.
Vai all'interfaccia web di Cloud Data Fusion
Quando utilizzi Cloud Data Fusion, utilizzi sia la console Google Cloud sia l'interfaccia web separata di Cloud Data Fusion. Nella console Google Cloud, puoi creare un progetto della console Google Cloud e creare ed eliminare istanze di Cloud Data Fusion. Nell'interfaccia web di Cloud Data Fusion, puoi utilizzare le varie pagine, ad esempio Pipeline Studio o Wrangler, per utilizzare le funzionalità di Cloud Data Fusion.
Nella console Google Cloud, apri la pagina Istanze.
Nella colonna Azioni per l'istanza, fai clic sul link Visualizza istanza. L'interfaccia web di Cloud Data Fusion si apre in una nuova scheda del browser.
Esegui il deployment del plug-in Argument Setter di Cloud Storage
Nell'interfaccia web di Cloud Data Fusion, vai alla pagina Studio.
Nel menu Azioni, fai clic su Setter argomento GCS.
Lettura da Cloud Storage
- Nell'interfaccia web di Cloud Data Fusion, vai alla pagina Studio.
- Fai clic su arrow_drop_down Origine e seleziona Cloud Storage. Il nodo per un'origine Cloud Storage viene visualizzato nella pipeline.
Nel nodo Cloud Storage, fai clic su Proprietà.
Inserisci un nome nel campo Nome riferimento.
Nel campo Percorso, inserisci
${input.path}
. Questa macro controlla quale sarà il percorso di input di Cloud Storage nelle diverse esecuzioni della pipeline.Nel riquadro Schema di output a destra, rimuovi il campo offset dallo schema di output facendo clic sull'icona del cestino nella riga del campo dell'offset.
Fai clic su Convalida e risolvi eventuali errori.
Fai clic sulla
per uscire dalla finestra di dialogo Proprietà.
Trasforma i tuoi dati
- Nell'interfaccia web di Cloud Data Fusion, vai alla pipeline di dati nella pagina Studio.
- Nel menu a discesa Trasforma arrow_drop_down, seleziona Wrangler.
- Nel canvas di Pipeline Studio, trascina una freccia dal nodo Cloud Storage al nodo Wrangler.
- Vai al nodo Wrangler nella pipeline e fai clic su Proprietà.
- In Nome campo di immissione, inserisci
body
. - Nel campo Recipe, inserisci
${directives}
. Questa macro controlla quale sarà la logica di trasformazione nelle diverse esecuzioni della pipeline. - Fai clic su Convalida e risolvi eventuali errori.
- Fai clic sulla per uscire dalla finestra di dialogo Proprietà.
Scrivi in Cloud Storage
- Nell'interfaccia web di Cloud Data Fusion, vai alla pipeline di dati nella pagina Studio.
- Nel menu a discesa Sink arrow_drop_down, seleziona Cloud Storage.
- Nel canvas di Pipeline Studio, trascina una freccia dal nodo Wrangler al nodo Cloud Storage appena aggiunto.
- Vai al nodo del sink di Cloud Storage nella pipeline e fai clic su Proprietà.
- Inserisci un nome nel campo Nome riferimento.
- Nel campo Percorso, inserisci il percorso di un bucket Cloud Storage nel tuo progetto, in cui la pipeline può scrivere i file di output. Se non hai un bucket Cloud Storage, creane uno.
- Fai clic su Convalida e risolvi eventuali errori.
- Fai clic sulla per uscire dalla finestra di dialogo Proprietà.
Impostare gli argomenti delle macro
- Nell'interfaccia web di Cloud Data Fusion, vai alla pipeline di dati nella pagina Studio.
- Nel menu a discesa arrow_drop_down Condizioni e azioni, fai clic su Setter argomento GCS.
- Nel canvas di Pipeline Studio, trascina una freccia dal nodo Settore argomenti Cloud Storage al nodo origine di Cloud Storage.
- Vai al nodo Setter dell'argomento Cloud Storage nella tua pipeline e fai clic su Proprietà.
Nel campo URL, inserisci l'URL seguente:
gs://reusable-pipeline-tutorial/args.json
L'URL corrisponde a un oggetto accessibile pubblicamente in Cloud Storage che include i seguenti contenuti:
{ "arguments" : [ { "name": "input.path", "value": "gs://reusable-pipeline-tutorial/user-emails.txt" }, { "name": "directives", "value": "send-to-error !dq:isEmail(body)" } ] }
Il primo dei due argomenti è il valore di
input.path
. Il percorsogs://reusable-pipeline-tutorial/user-emails.txt
è un oggetto accessibile pubblicamente in Cloud Storage che contiene i seguenti dati di test:alice@example.com bob@example.com craig@invalid@example.com
Il secondo argomento è il valore di
directives
. Il valoresend-to-error !dq:isEmail(body)
configura Wrangler in modo da filtrare tutte le righe che non sono un indirizzo email valido. Ad esempio,craig@invalid@example.com
viene filtrato ed escluso.Fai clic su Convalida per assicurarti che non siano presenti errori.
Fai clic sulla
per uscire dalla finestra di dialogo Proprietà.
Esegui il deployment e la pipeline
Nella barra superiore della pagina Pipeline Studio, fai clic su Assegna un nome alla pipeline. Assegna un nome alla pipeline e fai clic su Salva.
Fai clic su Esegui il deployment.
Per aprire gli argomenti di runtime e visualizzare gli argomenti della macro
input.path
(runtime) edirectives
, fai clic sul menu a discesa arrow_drop_down accanto a Esegui.Lascia vuoti i campi dei valori per notificare a Cloud Data Fusion che il nodo Cloud Storage Argument Setter nella pipeline imposterà i valori di questi argomenti durante il runtime.
Fai clic su Esegui.
Esegui la pulizia
Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Dopo aver completato il tutorial, pulisci le risorse che hai creato su Google Cloud in modo che non occupino quota e non ti vengano addebitati costi in futuro. Le sezioni seguenti descrivono come eliminare o disattivare queste risorse.
Elimina l'istanza di Cloud Data Fusion
Segui le istruzioni per eliminare l'istanza di Cloud Data Fusion.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.
Per eliminare il progetto:
- Nella console Google Cloud, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.
Passaggi successivi
- Leggi le guide illustrative
- Segui un altro tutorial