Esegui un modello di esempio

Il modello WordCount è una pipeline batch che legge il testo da Cloud Storage, tokenizza le righe di testo in singole parole ed esegue un conteggio di frequenza su ciascuna parola. Per ulteriori informazioni su WordCount, consulta la pagina relativa alla pipeline di esempio WordCount.

Se il bucket Cloud Storage si trova all'esterno del tuo perimetro di servizio, crea una regola in uscita che consenta l'accesso al bucket.

Parametri del modello

Parametro Descrizione
inputFile Il percorso del file di input di Cloud Storage.
outputFile Il percorso e il prefisso del file di output di Cloud Storage.

Esegui il modello WordCount

Console

  1. Vai alla pagina Crea job da modello di Dataflow.
  2. Vai a Crea job da modello
  3. Nel campo Nome job, inserisci un nome univoco per il job.
  4. (Facoltativo) Per Endpoint a livello di regione, seleziona un valore dal menu a discesa. La regione predefinita è us-central1.

    Per un elenco delle regioni in cui puoi eseguire un job Dataflow, vedi Località Dataflow.

  5. Nel menu a discesa Modello Dataflow, seleziona the WordCount template.
  6. Nei campi dei parametri forniti, inserisci i valori dei parametri.
  7. Fai clic su Esegui job.

gcloud

Nella shell o nel terminale, esegui il modello:

gcloud dataflow jobs run JOB_NAME \\
    --gcs-location gs://dataflow-templates/latest/Word_Count \\
    --region REGION_NAME \\
    --parameters \\
    inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\\
    output=gs://BUCKET_NAME/output/my_output

Sostituisci quanto segue:

  • JOB_NAME: un nome job univoco a tua scelta

  • REGION_NAME: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempio us-central1

  • BUCKET_NAME: il nome del bucket Cloud Storage

API

Per eseguire il modello utilizzando l'API REST, invia una richiesta POST HTTP. Per maggiori informazioni sull'API e sui relativi ambiti di autorizzazione, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del progetto Google Cloud in cui vuoi eseguire il job Dataflow
  • JOB_NAME: un nome job univoco a tua scelta

  • LOCATION: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempio us-central1

  • BUCKET_NAME: il nome del bucket Cloud Storage