Google proporciona un conjunto de plantillas de código abierto de Dataflow. Para obtener información general sobre las plantillas, consulta la página Descripción general. Para comenzar, usa la plantilla de WordCount documentada en la sección a continuación. Observa otras plantillas proporcionadas por Google:
Plantillas de transmisión: plantillas para procesar datos de forma continua:
- Suscripción de Pub/Sub a BigQuery
- Tema de Pub/Sub a BigQuery
- Pub/Sub a Pub/Sub
- Pub/Sub a Splunk
- Pub/Sub a Cloud Storage Avro
- Pub/Sub a Cloud Storage Text
- Cloud Storage Text en BigQuery (transmisión)
- Cloud Storage Text a Pub/Sub (transmisión)
- Enmascara datos y asigna tokens mediante Cloud DLP desde Cloud Storage a BigQuery (transmisión)
- Captura de datos modificados a BigQuery (transmisión)
- Apache Kafka a BigQuery
Plantillas por lotes: plantillas para procesar datos de forma masiva:
- BigQuery a TFRecord de Cloud Storage
- Cloud Bigtable a Cloud Storage Avro
- Cloud Bigtable a SequenceFiles de Cloud Storage
- Datastore a Cloud Storage Text
- Cloud Spanner a Cloud Storage Avro
- Cloud Spanner a Cloud Storage Text
- Cloud Storage Avro a Cloud Bigtable
- Cloud Storage Avro a Cloud Spanner
- SequenceFiles de Cloud Storage a Cloud Bigtable
- Cloud Storage Text a BigQuery
- Cloud Storage Text a Datastore
- Cloud Storage Text a Pub/Sub (por lotes)
- Cloud Storage Text a Cloud Spanner
- Conectividad a bases de datos de Java (JDBC) para BigQuery
- Apache Cassandra a Cloud Bigtable
- Apache Hive a BigQuery
- Apache Cassandra a Cloud Bigtable
- Conversión de formato de archivo
Plantillas de utilidad:
- Compresión masiva de archivos de Cloud Storage
- Descompresión masiva de archivos de Cloud Storage
- Borrado masivo de Datastore
- Generador de datos de transmisión a Pub/Sub
WordCount
La plantilla de WordCount es una canalización por lotes que lee texto de Cloud Storage, convierte las líneas de texto en tokens de palabras individuales y cuenta la frecuencia con la que aparece cada palabra. Para obtener más información sobre WordCount, consulta Canalización de ejemplo de WordCount.
Parámetros de la plantilla
Parámetro | Descripción |
---|---|
inputFile |
Ruta de acceso del archivo de entrada de Cloud Storage. |
output |
Ruta de acceso y prefijo del archivo de salida de Cloud Storage. |
Ejecuta la plantilla de WordCount
Console
Ejecuta desde Google Cloud Console- Ve a la página de Dataflow en Cloud Console. Ir a la página de Dataflow
- Haz clic en Crear trabajo a partir de una plantilla (Create job from template).
- Selecciona the WordCount template en el menú desplegable Plantilla de Dataflow.
- Ingresa un nombre para el trabajo en el campo Nombre del trabajo.El nombre del trabajo debe coincidir con la expresión regular
[a-z]([-a-z0-9]{0,38}[a-z0-9])?
para ser válido. - Ingresa los valores de tus parámetros en los campos de parámetros provistos.
- Haz clic en Run Job (Ejecutar trabajo).

GCLOUD
Ejecuta desde la herramienta de línea de comandos degcloud
Nota: Para usar la herramienta de línea de comandos de gcloud
a fin de ejecutar plantillas, debes tener la versión 138.0.0 o superior del SDK de Cloud.
Cuando ejecutes esta plantilla, necesitarás la ruta de Cloud Storage a la plantilla:
gs://dataflow-templates/latest/Word_Count
En este ejemplo, debes reemplazar los siguientes valores:
- Reemplaza JOB_NAME por un nombre de trabajo a elección. El nombre del trabajo debe coincidir con la expresión regular
[a-z]([-a-z0-9]{0,38}[a-z0-9])?
para ser válido. - Reemplaza YOUR_BUCKET_NAME por el nombre del depósito de Cloud Storage.
gcloud dataflow jobs run JOB_NAME \ --gcs-location gs://dataflow-templates/latest/Word_Count \ --parameters \ inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\ output=gs://YOUR_BUCKET_NAME/output/my_output
API
Ejecuta desde la API de RESTCuando ejecutes esta plantilla, necesitarás la ruta de Cloud Storage a la plantilla:
gs://dataflow-templates/latest/Word_Count
Para ejecutar esta plantilla con una solicitud a la API de REST, envía una solicitud HTTP POST con tu ID del proyecto. Esta solicitud requiere autorización.
En este ejemplo, debes reemplazar los siguientes valores:
- Reemplaza YOUR_PROJECT_ID por el ID del proyecto.
- Reemplaza JOB_NAME por un nombre de trabajo a elección. El nombre del trabajo debe coincidir con la expresión regular
[a-z]([-a-z0-9]{0,38}[a-z0-9])?
para ser válido. - Reemplaza YOUR_BUCKET_NAME por el nombre del depósito de Cloud Storage.
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count { "jobName": "JOB_NAME", "parameters": { "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt", "output": "gs://YOUR_BUCKET_NAME/output/my_output" }, "environment": { "zone": "us-central1-f" } }