Usa il generatore di job per creare una pipeline

Il generatore di job consente di creare ed eseguire una pipeline Dataflow nella console Google Cloud, senza scrivere alcun codice.

Lo strumento per la creazione di job supporta la lettura e la scrittura dei seguenti tipi di dati:

  • Messaggi Pub/Sub
  • Dati della tabella BigQuery
  • File CSV, file JSON e file di testo in Cloud Storage

Supporta le trasformazioni della pipeline, tra cui filtro, join, mappatura, raggruppamento ed esplosione (array flatten).

Lo strumento per la creazione dei job può anche salvare le pipeline come file Apache Beam YAML. Utilizzando questa funzionalità, puoi progettare la pipeline nel generatore di job e quindi archiviare il file YAML in Cloud Storage o in un repository di controllo del codice sorgente per riutilizzarlo.

Prendi in considerazione lo strumento per la creazione di job per i seguenti casi d'uso:

  • Vuoi creare una pipeline rapidamente senza scrivere codice.
  • Vuoi salvare una pipeline in YAML per riutilizzarla.
  • La pipeline può essere espressa utilizzando origini, sink e trasformazioni supportati.
  • Non esiste un modello fornito da Google corrispondente al tuo caso d'uso.

Crea una nuova pipeline

Per creare una nuova pipeline nel generatore di job, segui questi passaggi:

  1. Vai alla pagina Job nella console Google Cloud.

    Vai a Job

  2. Fai clic su Crea job da modello.

  3. Fai clic su Generatore di job.

  4. In Nome job, inserisci un nome per il job.

  5. Seleziona Batch o Streaming.

  6. Se selezioni Streaming, seleziona una modalità di windowing. Quindi, inserisci una specifica per la finestra, come segue:

    • Finestra fissa: inserisci le dimensioni della finestra, in secondi.
    • Finestra scorrevole: inserisci le dimensioni e il periodo della finestra, in secondi.
    • Finestra di sessione: inserisci un intervallo di sessioni, in secondi.

    Per ulteriori informazioni sul windowing, consulta Funzioni di Windows e windowing.

Poi, aggiungi origini, trasformazioni e sink alla pipeline, come descritto nelle sezioni seguenti.

Aggiungi un'origine alla pipeline

Una pipeline deve avere almeno un'origine. Inizialmente, il generatore di job viene compilato con un'origine vuota. Per configurare l'origine, segui questi passaggi:

  1. Nella casella Nome origine, inserisci un nome per l'origine o utilizza il nome predefinito. Il nome viene visualizzato nel grafico del job quando lo esegui.

  2. Nell'elenco Tipo di origine, seleziona il tipo di origine dati.

  3. A seconda del tipo di origine, fornisci ulteriori informazioni di configurazione. Ad esempio, se selezioni BigQuery, specifica la tabella da cui vuoi leggere.

    Se selezioni Pub/Sub, specifica uno schema per i messaggi. Inserisci il nome e il tipo di dati di ogni campo che vuoi leggere dai messaggi Pub/Sub. La pipeline elimina tutti i campi non specificati nello schema.

  4. (Facoltativo) Per alcuni tipi di origine, puoi fare clic su Anteprima dati di origine per visualizzare l'anteprima dei dati di origine.

Per aggiungere un'altra origine alla pipeline, fai clic su Aggiungi un'origine. Per combinare i dati di più origini, aggiungi la trasformazione Join alla pipeline.

Aggiungi una trasformazione alla pipeline

Facoltativamente, aggiungi una o più trasformazioni alla pipeline. Per aggiungere una trasformazione:

  1. Fai clic su Aggiungi una trasformazione.

  2. Nella casella del nome Trasforma, inserisci un nome per la trasformazione o utilizza il nome predefinito. Il nome viene visualizzato nel grafico del job quando lo esegui.

  3. Nell'elenco Tipo di trasformazione, seleziona il tipo di trasformazione.

  4. A seconda del tipo di trasformazione, fornisci informazioni di configurazione aggiuntive. Ad esempio, se selezioni Filtro (Python), inserisci un'espressione Python da utilizzare come filtro.

  5. Seleziona il passaggio di input per la trasformazione. Il passaggio di input è l'origine o la trasformazione il cui output fornisce l'input.

Aggiungi un sink alla pipeline

Una pipeline deve avere almeno un sink. Inizialmente, il generatore di job viene compilato con un sink vuoto. Per configurare il sink, segui questi passaggi:

  1. Nella casella Nome sink, inserisci un nome per il sink o utilizza il nome predefinito. Il nome viene visualizzato nel grafico del job quando lo esegui.

  2. Nell'elenco Tipo di sink, seleziona il tipo di sink.

  3. A seconda del tipo di sink, fornisci ulteriori informazioni di configurazione. Ad esempio, se selezioni il sink BigQuery, seleziona la tabella BigQuery in cui scrivere.

  4. Seleziona il passaggio di input per il sink. Il passaggio di input corrisponde all'origine o alla trasformazione il cui output fornisce l'input.

  5. Per aggiungere un altro sink alla pipeline, fai clic su Aggiungi un sink.

Esegui la pipeline

Per eseguire una pipeline dal generatore di job, segui questi passaggi:

  1. (Facoltativo) Imposta le opzioni del job Dataflow. Per espandere la sezione Opzioni di Dataflow, fai clic sulla freccia di espansione.

  2. Fai clic su Esegui job. Il generatore di job passa al grafico dei job per il job inviato. Puoi utilizzare il grafico del job per monitorarne lo stato.

Salva una pipeline

Per salvare una pipeline in YAML Beam:

  1. Fai clic su Salva per aprire la finestra Salva YAML.

  2. Esegui una delle seguenti azioni:

    • Per copiare il file YAML negli appunti, fai clic su Copia.
    • Per salvare in Cloud Storage, inserisci un percorso Cloud Storage e fai clic su Salva.
    • Per scaricare un file locale, fai clic su Scarica.

Carica una pipeline

Dopo aver salvato una pipeline in YAML Beam, puoi caricarla di nuovo in Job Builder. Puoi quindi utilizzare il generatore di job per modificare o eseguire la pipeline.

Puoi caricare YAML Beam da Cloud Storage o da testo.

Carica una pipeline da Cloud Storage

Per caricare una pipeline da Cloud Storage:

  1. Fai clic su Carica.
  2. Fai clic su Carica da Cloud Storage.
  3. Nella casella Posizione file YAML, inserisci il percorso Cloud Storage del file YAML o fai clic su Sfoglia per selezionare il file.
  4. Fai clic su Carica.

Carica una pipeline da testo

Per caricare una pipeline da testo:

  1. Fai clic su Carica.
  2. Fai clic su Carica da testo.
  3. Incolla il codice YAML nella finestra.
  4. Fai clic su Carica.

Passaggi successivi