Esegui una pipeline utilizzando il generatore di job

Questa guida rapida mostra come eseguire un job Dataflow utilizzando il Generatore di job Dataflow. Il generatore di job è un'interfaccia utente visiva per creare ed eseguire pipeline Dataflow nella console Google Cloud senza scrivere codice.

In questa guida rapida caricherai una pipeline di esempio nel generatore di job, eseguirai una il job e verifica che quest'ultimo abbia creato un output.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager APIs.

    Enable the APIs

  8. Crea un bucket Cloud Storage:
    1. In the Google Cloud console, go to the Cloud Storage Buckets page.

      Go to Buckets page

    2. Click Create bucket.
    3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
      • For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
      • For Choose where to store your data, do the following:
        • Select a Location type option.
        • Select a Location option.
      • For Choose a default storage class for your data, select the following: Standard.
      • For Choose how to control access to objects, select an Access control option.
      • For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
    4. Click Create.
  9. Per completare i passaggi della guida rapida, il tuo account utente deve disporre Ruolo Amministratore Dataflow e il ruolo Utente account di servizio. L'account di servizio predefinito di Compute Engine deve avere il ruolo Worker Dataflow. Per aggiungere i ruoli richiesti nella console Google Cloud:

    1. Vai alla pagina IAM.
      Vai a IAM
    2. Seleziona il progetto.
    3. Nella riga contenente il tuo account utente, fai clic su Modifica entità
    4. Fai clic su Aggiungi un altro ruolo e poi Seleziona Amministratore Dataflow dall'elenco a discesa.
    5. Fai clic su Aggiungi un altro ruolo e poi seleziona Service Account User (Utente account di servizio) dall'elenco a discesa.
    6. Fai clic su Salva.
    7. Nella riga contenente l'account di servizio predefinito di Compute Engine, fai clic su Modifica entità.
    8. Fai clic su Aggiungi un altro ruolo e poi seleziona Worker Dataflow dall'elenco a discesa.
    9. Fai clic su Aggiungi un altro ruolo e poi seleziona Amministratore oggetti Storage dall'elenco a discesa.
    10. Fai clic su Salva.

      Per ulteriori informazioni sulla concessione dei ruoli, consulta Concedere un ruolo IAM utilizzando la console.

  10. Per impostazione predefinita, ogni nuovo progetto inizia con un rete predefinita. Se la rete predefinita per il progetto è disabilitata o se è stato eliminato, devi disporre di una rete nel progetto per la quale il tuo account utente dispone Ruolo Utente di rete Compute (roles/compute.networkUser).

Carica la pipeline di esempio

In questo passaggio, caricherai una pipeline di esempio che conteggia le parole in Re Lear di Shakespeare.

  1. Vai alla pagina Job nella console Google Cloud.

    Vai a Job

  2. Fai clic su Crea job da modello.

  3. Fai clic su Generatore di job.

  4. Fai clic su Carica.

  5. Fai clic su Conteggio parole. Il generatore di job viene compilato con un'immagine una rappresentazione grafica della pipeline.

Per ogni passaggio della pipeline, lo strumento per la creazione di job mostra una scheda che specifica i parametri di configurazione per quel passaggio. Ad esempio, nel primo passaggio da Cloud Storage. La posizione dei dati di origine è precompilata nella casella Posizione del testo.

Uno screenshot del generatore di job

Imposta la posizione di output

In questo passaggio specifichi un bucket Cloud Storage in cui scrive la pipeline come output.

  1. Individua la scheda Nuovo sink. Potresti dover scorrere.

  2. Nella casella Posizione testo, fai clic su Sfoglia.

  3. Seleziona il nome del bucket Cloud Storage che hai creato Prima di iniziare.

  4. Fai clic su Visualizza risorse secondarie.

  5. Nella casella Nome file, inserisci words.

  6. Fai clic su Seleziona.

Esegui il job

Fai clic su Esegui job. Il generatore di job crea un job Dataflow passa al grafico del job. Quando il job il job mostra una rappresentazione grafica della pipeline, simile a quello mostrato nel generatore di job. Man mano che viene eseguito ogni passaggio della pipeline, lo stato viene aggiornato nel grafico del job.

Il riquadro Informazioni lavoro mostra lo stato generale del lavoro. Se il job viene completato Il campo Stato job viene aggiornato in Succeeded.

esamina l'output del job

Al termine del job, svolgi i seguenti passaggi per visualizzare l'output della pipeline:

  1. Nella console Google Cloud, vai alla pagina Bucket in Cloud Storage.

    Vai a Bucket

  2. Nell'elenco dei bucket, fai clic sul nome del bucket che hai creato in Prima di iniziare.

  3. Fai clic sul file denominato words-00000-of-00001.

  4. Nella pagina Dettagli oggetto, fai clic sull'URL di autenticazione per visualizzare l'output della pipeline.

L'output dovrebbe essere simile al seguente:

brother: 20
deeper: 1
wrinkles: 1
'alack: 1
territory: 1
dismiss'd: 1
[....]

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi per le risorse utilizzate in questa pagina, segui questi passaggi.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è quello di eliminare il progetto Google Cloud creato per la guida rapida.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Elimina le singole risorse

Se vuoi mantenere il progetto Google Cloud che hai utilizzato Guida rapida, quindi elimina il bucket Cloud Storage:

  1. In the Google Cloud console, go to the Cloud Storage Buckets page.

    Go to Buckets

  2. Click the checkbox for the bucket that you want to delete.
  3. To delete the bucket, click Delete, and then follow the instructions.

Passaggi successivi