Comienza a usar las plantillas proporcionadas por Google

Google ofrece un conjunto de plantillas de código abierto de Cloud Dataflow. Para obtener información general sobre las plantillas, consulta la página Descripción general. Para comenzar, usa la plantilla de WordCount documentada en la sección a continuación. Observa otras plantillas proporcionadas por Google:

Plantillas de transmisión: plantillas para procesar datos de forma continua:

Plantillas por lotes: plantillas para procesar datos de forma masiva:

Plantillas de utilidad:

WordCount

La plantilla de WordCount es una canalización por lotes que lee texto de Cloud Storage, convierte las líneas de texto en tokens de palabras individuales y cuenta la frecuencia con la que aparece cada palabra. Para obtener más información sobre WordCount, consulta Canalización de ejemplo de WordCount.

Parámetros de la plantilla

Parámetro Descripción
inputFile Ruta de acceso del archivo de entrada de Cloud Storage.
output Ruta de acceso y prefijo del archivo de salida de Cloud Storage.

Ejecuta la plantilla de WordCount

Console

Ejecuta desde Google Cloud Platform Console
  1. Ve a la página Cloud Dataflow en GCP Console.
  2. Ir a la página Cloud Dataflow
  3. Haz clic en Crear trabajo a partir de una plantilla.
  4. Botón Crear trabajo a partir de una plantilla de Cloud Platform Console
  5. Selecciona the WordCount template del menú desplegable Plantilla de Cloud Dataflow.
  6. Ingresa un nombre para el trabajo en el campo Nombre del trabajo. El nombre de tu trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para ser válido.
  7. Ingresa los valores de tus parámetros en los campos de parámetros provistos.
  8. Haz clic en Ejecutar trabajo.

GCLOUD

Ejecuta desde la herramienta de línea de comandos de gcloud

Nota: Para usar la herramienta de línea de comandos de gcloud a fin de ejecutar plantillas, debes tener la versión 138.0.0 o superior del SDK de Cloud.

Cuando ejecutes esta plantilla, necesitarás la ruta de Cloud Storage a la plantilla:

gs://dataflow-templates/latest/Word_Count

En este ejemplo, debes reemplazar los siguientes valores:

  • Reemplaza JOB_NAME por un nombre de trabajo que elijas. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para ser válido.
  • Reemplaza [YOUR_BUCKET_NAME] por el nombre del depósito de Cloud Storage.
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --parameters \
inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\
output=gs://YOUR_BUCKET_NAME/output/my_output

API

Ejecuta desde la API de REST

Cuando ejecutes esta plantilla, necesitarás la ruta de Cloud Storage a la plantilla:

gs://dataflow-templates/latest/Word_Count

Para ejecutar esta plantilla con una solicitud a la API de REST, envía una solicitud HTTP POST con tu ID del proyecto. Esta solicitud requiere autorización.

En este ejemplo, debes reemplazar los siguientes valores:

  • Reemplaza YOUR-PROJECT-ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre de trabajo que elijas. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para ser válido.
  • Reemplaza [YOUR_BUCKET_NAME] por el nombre del depósito de Cloud Storage.
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://YOUR_BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}
¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

¿Necesitas ayuda? Visita nuestra página de asistencia.