Utilizzare lo strumento per la creazione di job per creare una pipeline

Il generatore di job è un'interfaccia utente visiva per creare ed eseguire pipeline Dataflow nella console Google Cloud senza scrivere codice.

L'immagine seguente mostra un dettaglio dell'interfaccia utente di Job Builder. In questa immagine, l'utente sta creando una pipeline per leggere da Pub/Sub a BigQuery:

Uno screenshot dell'interfaccia utente di Job Builder

Panoramica

Lo strumento per la creazione dei job supporta la lettura e la scrittura dei seguenti tipi di dati:

  • Messaggi Pub/Sub
  • Dati della tabella BigQuery
  • File CSV, JSON e di testo in Cloud Storage

Supporta le trasformazioni della pipeline, tra cui filtro, unione, mappa, gruppo per e esplodi (appiattimento array).

Il builder dei job può anche salvare le pipeline come file YAML di Apache Beam. Utilizzando questa funzionalità, puoi progettare la pipeline nel Job Builder e poi archiviare il file YAML in Cloud Storage o in un repository di controllo del codice per riutilizzarlo.

Prendi in considerazione lo strumento per la creazione di job per i seguenti casi d'uso:

  • Vuoi creare una pipeline rapidamente senza scrivere codice.
  • Vuoi salvare una pipeline in YAML per riutilizzarla.
  • La pipeline può essere espressa utilizzando le origini, gli sink e le trasformazioni supportati.
  • Non esiste un modello fornito da Google che corrisponda al tuo caso d'uso.

Creare una nuova pipeline

Per creare una nuova pipeline nel Generatore di job:

  1. Vai alla pagina Job nella console Google Cloud.

    Vai a Job

  2. Fai clic su Crea job da strumento di creazione.

  3. In Nome job, inserisci un nome per il job.

  4. Seleziona Batch o Streaming.

  5. Se selezioni Streaming, seleziona una modalità di visualizzazione. Quindi, inserisci una specifica per la finestra, come segue:

    • Finestra fissa: inserisci una dimensione della finestra in secondi.
    • Finestra mobile: inserisci una dimensione e un periodo della finestra, in secondi.
    • Finestra sessione: inserisci un intervallo di sessione in secondi.

    Per saperne di più sulle finestre, consulta Finestre e funzioni di gestione delle finestre.

Aggiungi poi origini, trasformazioni e destinazioni alla pipeline, come descritto nelle sezioni seguenti.

Aggiungere un'origine alla pipeline

Una pipeline deve avere almeno un'origine. Inizialmente, il builder di job viene compilato con un'origine vuota. Per configurare l'origine, svolgi i seguenti passaggi:

  1. Nella casella Nome origine, inserisci un nome per l'origine o utilizza il nome predefinito. Il nome viene visualizzato nel grafico del job quando lo esegui.

  2. Nell'elenco Tipo di origine, seleziona il tipo di origine dati.

  3. A seconda del tipo di origine, fornisci ulteriori informazioni di configurazione. Ad esempio, se selezioni BigQuery, specifica la tabella da leggere.

    Se selezioni Pub/Sub, specifica uno schema di messaggi. Inserisci il nome e il tipo di dati di ogni campo che vuoi leggere dai messaggi Pub/Sub. La pipeline elimina tutti i campi non specificati nello schema.

  4. (Facoltativo) Per alcuni tipi di origine, puoi fare clic su Anteprima dati origine per visualizzare l'anteprima dei dati dell'origine.

Per aggiungere un'altra origine alla pipeline, fai clic su Aggiungi un'origine. Per combinare i dati provenienti da più origini, aggiungi la trasformazione Join alla pipeline.

Aggiungere una trasformazione alla pipeline

Facoltativamente, aggiungi una o più trasformazioni alla pipeline. Per aggiungere una trasformazione:

  1. Fai clic su Aggiungi una trasformazione.

  2. Nella casella del nome Trasformazione, inserisci un nome per la trasformazione o utilizza il nome predefinito. Il nome viene visualizzato nel grafico del job quando lo esegui.

  3. Nell'elenco Tipo di trasformazione, seleziona il tipo di trasformazione.

  4. A seconda del tipo di trasformazione, fornisci ulteriori informazioni di configurazione. Ad esempio, se selezioni Filtra (Python), inserisci un'espressione Python da utilizzare come filtro.

  5. Seleziona il passaggio di input per la trasformazione. Il passaggio di input è l'origine o la trasformazione il cui output fornisce l'input per questa trasformazione.

Aggiungere un sink alla pipeline

Una pipeline deve avere almeno un sink. Inizialmente, il job builder viene compilato con un sink vuoto. Per configurare l'incanalamento, svolgi i seguenti passaggi:

  1. Nella casella Nome della destinazione, inserisci un nome per la destinazione o utilizza il nome predefinito. Il nome viene visualizzato nel grafico del job quando lo esegui.

  2. Nell'elenco Tipo di destinazione, seleziona il tipo di destinazione.

  3. A seconda del tipo di sink, fornisci ulteriori informazioni di configurazione. Ad esempio, se selezioni l'esegui in BigQuery, seleziona la tabella BigQuery in cui scrivere.

  4. Seleziona il passaggio di input per il sink. Il passaggio di input è l'origine o la trasformazione il cui output fornisce l'input per questa trasformazione.

  5. Per aggiungere un altro sink alla pipeline, fai clic su Aggiungi un sink.

esegui la pipeline.

Per eseguire una pipeline dal generatore di job:

  1. (Facoltativo) Imposta le opzioni del job Dataflow. Per espandere la sezione Opzioni flusso di dati, fai clic sulla freccia di espansione .

  2. Fai clic su Esegui job. Il generatore di job passa al grafico del job per il job inviato. Puoi utilizzare il grafico del job per monitorarne lo stato.

Salvare una pipeline

Per salvare una pipeline in Beam YAML:

  1. Fai clic su Salva per aprire la finestra Salva YAML.

  2. Esegui una delle seguenti azioni:

    • Per copiare il file YAML negli appunti, fai clic su Copia.
    • Per salvare in Cloud Storage, inserisci un percorso Cloud Storage e fai clic su Salva.
    • Per scaricare un file locale, fai clic su Scarica.

Caricare una pipeline

Dopo aver salvato una pipeline in Beam YAML, puoi ricaricarla nel builder dei job. Puoi quindi utilizzare il generatore di job per modificare o eseguire la pipeline.

Puoi caricare il file YAML di Beam da Cloud Storage o da un testo.

Caricare una pipeline da Cloud Storage

Per caricare una pipeline da Cloud Storage:

  1. Fai clic su Carica.
  2. Fai clic su Carica da Cloud Storage.
  3. Nella casella Posizione del file YAML, inserisci la posizione del file YAML in Cloud Storage o fai clic su Sfoglia per selezionarlo.
  4. Fai clic su Carica.

Caricare una pipeline dal testo

Per caricare una pipeline da testo:

  1. Fai clic su Carica.
  2. Fai clic su Carica da testo.
  3. Incolla il file YAML nella finestra.
  4. Fai clic su Carica.

Convalida la pipeline prima del lancio

Per le pipeline con configurazione complessa, come i filtri Python e le espressioni SQL, può essere utile verificare la presenza di errori di sintassi nella configurazione della pipeline prima del lancio. Per convalidare la sintassi della pipeline, svolgi i seguenti passaggi:

  1. Fai clic su Convalida per aprire Cloud Shell e avviare il servizio di convalida.
  2. Fai clic su Avvia convalida.
  3. Se viene rilevato un errore durante la convalida, viene visualizzato un punto esclamativo rosso.
  4. Correggi gli errori rilevati e verifica le correzioni facendo clic su Convalida. Se non viene rilevato alcun errore, viene visualizzato un segno di spunta verde.

Passaggi successivi