Eseguire una pipeline utilizzando il Job Builder
Questa guida rapida mostra come eseguire un job Dataflow utilizzando il Dataflow Job Builder. Il generatore di job è un'interfaccia utente visiva per creare ed eseguire pipeline Dataflow nella console Google Cloud senza scrivere codice.
In questa guida rapida, caricherai una pipeline di esempio nel builder dei job, eseguirai un job e verificherai che il job abbia creato l'output.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager APIs.
- Crea un bucket Cloud Storage:
- In the Google Cloud console, go to the Cloud Storage Buckets page.
- Click Create bucket.
- On the Create a bucket page, enter your bucket information. To go to the next
step, click Continue.
- For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
-
For Choose where to store your data, do the following:
- Select a Location type option.
- Select a Location option.
- For Choose a default storage class for your data, select the following: Standard.
- For Choose how to control access to objects, select an Access control option.
- For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
- Click Create.
Per completare i passaggi di questa guida introduttiva, il tuo account utente deve disporre del ruolo Amministratore Dataflow e del ruolo Utente account di servizio. L'account di servizio predefinito Compute Engine deve avere il ruolo Dataflow Worker. Per aggiungere i ruoli richiesti nella console Google Cloud:
- Vai alla pagina IAM.
Vai a IAM - Seleziona il progetto.
- Nella riga contenente il tuo account utente, fai clic su Modifica entità
- Fai clic su Aggiungi un altro ruolo e nell'elenco a discesa seleziona Amministratore Dataflow.
- Fai clic su Aggiungi un altro ruolo e nell'elenco a discesa seleziona Utente account di servizio.
- Fai clic su Salva.
- Nella riga contenente l'account di servizio predefinito di Compute Engine, fai clic su Modifica entità.
- Fai clic su Aggiungi un altro ruolo e nell'elenco a discesa seleziona Worker Dataflow.
- Fai clic su Aggiungi un altro ruolo e nell'elenco a discesa seleziona Amministratore oggetti di archiviazione.
Fai clic su Salva.
Per ulteriori informazioni sulla concessione dei ruoli, consulta Concedere un ruolo IAM utilizzando la console.
- Vai alla pagina IAM.
- Per impostazione predefinita, ogni nuovo progetto viene avviato con una
rete predefinita.
Se la rete predefinita per il progetto è disattivata o è stata eliminata, devi avere una rete nel progetto per la quale il tuo account utente dispone del ruolo Utente di rete Compute (
roles/compute.networkUser
).
Carica la pipeline di esempio
In questo passaggio carichi una pipeline di esempio che conteggia le parole dell'opera Re Lear di Shakespeare.
Vai alla pagina Job nella console Google Cloud.
Fai clic su
Crea job da modello.Fai clic su Generatore di job.
Fai clic su Carica.
Fai clic su Conteggio parole. Il generatore di job viene compilato con una rappresentazione grafica della pipeline.
Per ogni passaggio della pipeline, lo strumento per la creazione di job mostra una scheda che specifica i parametri di configurazione per quel passaggio. Ad esempio, il primo passaggio legge i file di testo da Cloud Storage. La posizione dei dati di origine è precompilata nella casella Posizione del testo.
Imposta la posizione di output
In questo passaggio, specifica un bucket Cloud Storage in cui la pipeline scrive l'output.
Individua la scheda Nuovo sink. Potresti dover scorrere.
Nella casella Posizione del testo, fai clic su Sfoglia.
Seleziona il nome del bucket Cloud Storage che hai creato in Prima di iniziare.
Fai clic su
Visualizza risorse secondarie.Nella casella Nome file, inserisci
words
.Fai clic su Seleziona.
Esegui il job
Fai clic su Esegui job. Il generatore di job crea un job Dataflow e poi si sposta sul grafo dei job. Quando il job inizia, il grafico del job mostra una rappresentazione grafica della pipeline, simile a quella mostrata nello strumento per la creazione di job. Man mano che viene eseguito ogni passaggio della pipeline, lo stato viene aggiornato nel grafico del job.
Il riquadro Informazioni job mostra lo stato complessivo del job. Se il job viene completato correttamente, il campo Stato job viene aggiornato in Succeeded
.
Esamina l'output del job
Al termine del job, svolgi i seguenti passaggi per visualizzare l'output della pipeline:
Nella console Google Cloud, vai alla pagina Bucket in Cloud Storage.
Nell'elenco dei bucket, fai clic sul nome del bucket che hai creato in Prima di iniziare.
Fai clic sul file denominato
words-00000-of-00001
.Nella pagina Dettagli oggetto, fai clic sull'URL di autenticazione per visualizzare l'output della pipeline.
L'output dovrebbe essere simile al seguente:
brother: 20
deeper: 1
wrinkles: 1
'alack: 1
territory: 1
dismiss'd: 1
[....]
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate su questa pagina, segui questi passaggi.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il Google Cloud progetto che hai creato per la guida rapida.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Elimina le singole risorse
Se vuoi conservare il Google Cloud progetto utilizzato in questo quickstart, elimina il bucket Cloud Storage:
- In the Google Cloud console, go to the Cloud Storage Buckets page.
- Click the checkbox for the bucket that you want to delete.
- To delete the bucket, click Delete, and then follow the instructions.