Google proporciona un conjunto de plantillas de
código abierto
de Dataflow. Para obtener información general sobre las plantillas, consulta la página Descripción general. Para comenzar, usa la
plantilla WordCount
. Observa otras plantillas proporcionadas por Google:
Plantillas de transmisión: plantillas para procesar datos de forma continua:
- Suscripción de Pub/Sub a BigQuery
- Tema de Pub/Sub a BigQuery
- Pub/Sub a Pub/Sub
- Pub/Sub a Splunk
- Pub/Sub a Cloud Storage Avro
- Pub/Sub a Cloud Storage Text
- Cloud Storage Text en BigQuery (transmisión)
- Cloud Storage Text a Pub/Sub (transmisión)
- Enmascara datos y asigna tokens mediante Cloud DLP desde Cloud Storage a BigQuery (transmisión)
- Captura de datos modificados a BigQuery (transmisión)
- Apache Kafka a BigQuery
Plantillas por lotes: plantillas para procesar datos de forma masiva:
- BigQuery a TFRecord de Cloud Storage
- Cloud Bigtable a Cloud Storage Avro
- Cloud Bigtable a SequenceFiles de Cloud Storage
- Datastore a Cloud Storage Text
- Cloud Spanner a Avro de Cloud Storage
- Cloud Spanner a texto de Cloud Storage
- Cloud Storage Avro a Cloud Bigtable
- Cloud Storage Avro a Cloud Spanner
- SequenceFiles de Cloud Storage a Cloud Bigtable
- Cloud Storage Text a BigQuery
- Texto de Cloud Storage a Datastore
- Texto de Cloud Storage a Pub/Sub (por lotes)
- Texto de Cloud Storage a Cloud Spanner
- Conectividad a bases de datos de Java (JDBC) para BigQuery
- Apache Cassandra a Cloud Bigtable
- Apache Hive a BigQuery
- Apache Cassandra a Cloud Bigtable
- Conversión de formato de archivo
Plantillas de utilidad:
- Compresión masiva de archivos de Cloud Storage
- Descompresión masiva de archivos de Cloud Storage
- Borrado masivo de Datastore
- Generador de datos de transmisión a Pub/Sub
WordCount
La plantilla de WordCount es una canalización por lotes que lee texto de Cloud Storage, convierte las líneas de texto en tokens de palabras individuales y cuenta la frecuencia con la que aparece cada palabra. Para obtener más información sobre WordCount, consulta Canalización de ejemplo de WordCount.
Parámetros de la plantilla
Parámetro | Descripción |
---|---|
inputFile |
Ruta de acceso del archivo de entrada de Cloud Storage. |
output |
Ruta de acceso y prefijo del archivo de salida de Cloud Storage. |
Ejecuta la plantilla de WordCount
Console
Ejecuta con Google Cloud Console.- Ve a la página de Dataflow en Cloud Console. Ir a la página de Dataflow
- Haz clic en addCrear trabajo a partir de una plantilla
- Selecciona the WordCount template en el menú desplegable Plantilla de Dataflow.
- Ingresa un nombre para el trabajo en el campo Nombre del trabajo.
- Ingresa los valores de tus parámetros en los campos de parámetros provistos.
- Haz clic en Ejecutar trabajo.

gcloud
Ejecuta con la herramienta de línea de comandos degcloud
.
Cuando ejecutas esta plantilla, necesitas la ruta de acceso de Cloud Storage a la plantilla:
gs://dataflow-templates/latest/Word_Count
Ejecuta el siguiente comando:
gcloud dataflow jobs run JOB_NAME \ --gcs-location gs://dataflow-templates/latest/Word_Count \ --parameters \ inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\ output=gs://BUCKET_NAME/output/my_output
Reemplaza lo siguiente:
JOB_NAME
: Es el nombre del trabajo que elijasBUCKET_NAME
: Es el nombre de tu bucket de Cloud Storage.
API
Ejecuta con la API de REST.Cuando ejecutas esta plantilla, necesitas la ruta de acceso de Cloud Storage a la plantilla:
gs://dataflow-templates/latest/Word_Count
Para ejecutar esta plantilla con una solicitud a la API de REST, envía una solicitud HTTP POST con tu ID del proyecto. Esta solicitud requiere autorización.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count { "jobName": "JOB_NAME", "parameters": { "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt", "output": "gs://BUCKET_NAME/output/my_output" }, "environment": { "zone": "us-central1-f" } }
Reemplaza lo siguiente:
PROJECT_ID
: El ID de tu proyectoJOB_NAME
: Es el nombre del trabajo que elijasBUCKET_NAME
: Es el nombre de tu bucket de Cloud Storage.