La plantilla WordCount es un flujo de procesamiento por lotes que lee archivos de texto de Cloud Storage, tokeniza las líneas de texto en palabras individuales y realiza un recuento de frecuencia de cada una de esas palabras. Para obtener más información sobre WordCount, consulta Flujo de procesamiento de ejemplo de WordCount.
Si el segmento de Cloud Storage está fuera de tu perímetro de servicio, crea una regla de salida que permita el acceso al segmento.
Parámetros de plantilla
Parámetro | Descripción |
---|---|
inputFile |
Ruta del archivo de entrada de Cloud Storage. |
outputFile |
Ruta y prefijo del archivo de salida de Cloud Storage. |
Ejecutar la plantilla WordCount
Consola
- Ve a la página Crear tarea a partir de plantilla de Dataflow. Ir a Crear tarea a partir de plantilla
- En el campo Nombre de la tarea, introduce un nombre único.
- Opcional: En Endpoint regional, seleccione un valor en el menú desplegable. La región predeterminada es
us-central1
.Para ver una lista de las regiones en las que puedes ejecutar una tarea de Dataflow, consulta Ubicaciones de Dataflow.
- En el menú desplegable Plantilla de flujo de datos, seleccione the WordCount template.
- En los campos de parámetros proporcionados, introduzca los valores de los parámetros.
- Haz clic en Ejecutar trabajo.
gcloud
En tu shell o terminal, ejecuta la plantilla:
gcloud dataflow jobs run JOB_NAME \
--gcs-location gs://dataflow-templates/latest/Word_Count \
--region REGION_NAME \
--parameters \
inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,output=gs://BUCKET_NAME/output/my_output
Haz los cambios siguientes:
JOB_NAME
: un nombre de trabajo único que elijasREGION_NAME
: la región en la que quieras desplegar tu trabajo de Dataflow. Por ejemplo,us-central1
BUCKET_NAME
: el nombre de tu segmento de Cloud Storage
API
Para ejecutar la plantilla mediante la API REST, envía una solicitud HTTP POST. Para obtener más información sobre la API y sus ámbitos de autorización, consulta projects.templates.launch
.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
"jobName": "JOB_NAME",
"parameters": {
"inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
"output": "gs://BUCKET_NAME/output/my_output"
},
"environment": { "zone": "us-central1-f" }
}
Haz los cambios siguientes:
PROJECT_ID
: el ID del proyecto Google Cloud en el que quieres ejecutar la tarea de Dataflow
JOB_NAME
: un nombre de trabajo único que elijasLOCATION
: la región en la que quieras desplegar tu trabajo de Dataflow. Por ejemplo,us-central1
BUCKET_NAME
: el nombre de tu segmento de Cloud Storage