Ejecutar una plantilla de ejemplo

La plantilla WordCount es un flujo de procesamiento por lotes que lee archivos de texto de Cloud Storage, tokeniza las líneas de texto en palabras individuales y realiza un recuento de frecuencia de cada una de esas palabras. Para obtener más información sobre WordCount, consulta Flujo de procesamiento de ejemplo de WordCount.

Si el segmento de Cloud Storage está fuera de tu perímetro de servicio, crea una regla de salida que permita el acceso al segmento.

Parámetros de plantilla

Parámetro Descripción
inputFile Ruta del archivo de entrada de Cloud Storage.
outputFile Ruta y prefijo del archivo de salida de Cloud Storage.

Ejecutar la plantilla WordCount

Consola

  1. Ve a la página Crear tarea a partir de plantilla de Dataflow.
  2. Ir a Crear tarea a partir de plantilla
  3. En el campo Nombre de la tarea, introduce un nombre único.
  4. Opcional: En Endpoint regional, seleccione un valor en el menú desplegable. La región predeterminada es us-central1.

    Para ver una lista de las regiones en las que puedes ejecutar una tarea de Dataflow, consulta Ubicaciones de Dataflow.

  5. En el menú desplegable Plantilla de flujo de datos, seleccione the WordCount template.
  6. En los campos de parámetros proporcionados, introduzca los valores de los parámetros.
  7. Haz clic en Ejecutar trabajo.

gcloud

En tu shell o terminal, ejecuta la plantilla:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --region REGION_NAME \
    --parameters \
    inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,output=gs://BUCKET_NAME/output/my_output

Haz los cambios siguientes:

  • JOB_NAME: un nombre de trabajo único que elijas

  • REGION_NAME: la región en la que quieras desplegar tu trabajo de Dataflow. Por ejemplo, us-central1

  • BUCKET_NAME: el nombre de tu segmento de Cloud Storage

API

Para ejecutar la plantilla mediante la API REST, envía una solicitud HTTP POST. Para obtener más información sobre la API y sus ámbitos de autorización, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}

Haz los cambios siguientes:

  • PROJECT_ID: el ID del proyecto Google Cloud en el que quieres ejecutar la tarea de Dataflow
  • JOB_NAME: un nombre de trabajo único que elijas

  • LOCATION: la región en la que quieras desplegar tu trabajo de Dataflow. Por ejemplo, us-central1

  • BUCKET_NAME: el nombre de tu segmento de Cloud Storage