El creador de tareas es una interfaz de usuario visual para crear y ejecutar flujos de procesamiento de Dataflow en la Google Cloud consola sin tener que escribir código.
En la siguiente imagen se muestra un detalle de la interfaz de usuario del creador de trabajos. En esta imagen, el usuario está creando un flujo de procesamiento para leer datos de Pub/Sub y escribirlos en BigQuery:
Información general
El creador de trabajos admite la lectura y escritura de los siguientes tipos de datos:
- Mensajes de Pub/Sub
- Datos de tabla de BigQuery
- Archivos CSV, JSON y de texto en Cloud Storage
- Datos de tablas de PostgreSQL, MySQL, Oracle y SQL Server
Admite transformaciones de la canalización, como filtros, mapas, SQL, agrupaciones, uniones y descomposiciones (aplanamiento de arrays).
Con el creador de trabajos, puedes hacer lo siguiente:
- Transmitir datos de Pub/Sub a BigQuery con transformaciones y agregación por ventanas
- Escribir datos de Cloud Storage en BigQuery
- Usar el control de errores para filtrar datos erróneos (cola de mensajes fallidos)
- Manipular o agregar datos mediante SQL con la transformación SQL
- Añadir, modificar o eliminar campos de datos con transformaciones de asignación
- Programar tareas por lotes periódicas
El creador de tareas también puede guardar las canalizaciones como archivos YAML de Apache Beam y cargar definiciones de canalizaciones desde archivos YAML de Beam. Con esta función, puedes diseñar tu canal de tratamiento en el creador de tareas y, a continuación, almacenar el archivo YAML en Cloud Storage o en un repositorio de control de código fuente para reutilizarlo. También se pueden usar definiciones de tareas en YAML para iniciar tareas con la CLI de gcloud.
Considera la herramienta de creación de empleo en los siguientes casos prácticos:
- Quieres crear una canalización rápidamente sin escribir código.
- Quieres guardar una canalización en YAML para reutilizarla.
- Tu canal se puede expresar mediante las fuentes, los receptores y las transformaciones admitidos.
- No hay ninguna plantilla proporcionada por Google que se ajuste a tu caso práctico.
Ejecutar un trabajo de ejemplo
El ejemplo de recuento de palabras es un flujo de procesamiento por lotes que lee texto de Cloud Storage, tokeniza las líneas de texto en palabras individuales y realiza un recuento de frecuencia de cada una de esas palabras.
Si el segmento de Cloud Storage está fuera de tu perímetro de servicio, crea una regla de salida que permita el acceso al segmento.
Para ejecutar la canalización de recuento de palabras, sigue estos pasos:
Ve a la página Trabajos de la Google Cloud consola.
Haz clic en
Crear tarea a partir de plantilla.En el panel lateral, haz clic en
Creador de empleo.Haz clic en Cargar planos
.Haz clic en Recuento de palabras. El creador de tareas se rellena con una representación gráfica de la canalización.
En cada paso de la canalización, el creador de trabajos muestra una tarjeta que especifica los parámetros de configuración de ese paso. Por ejemplo, en el primer paso se leen archivos de texto de Cloud Storage. La ubicación de los datos de origen se rellena automáticamente en el cuadro Ubicación del texto.
Busca la tarjeta titulada Nuevo fregadero. Es posible que tengas que desplazarte.
En el cuadro Ubicación del texto, introduce el prefijo de la ruta de la ubicación de Cloud Storage de los archivos de texto de salida.
Haz clic en Ejecutar trabajo. El creador de tareas crea una tarea de Dataflow y, a continuación, se desplaza al gráfico de tareas. Cuando se inicia el trabajo, el gráfico de trabajo muestra una representación gráfica de la canalización. Esta representación gráfica es similar a la que se muestra en el creador de trabajos. A medida que se ejecuta cada paso de la canalización, el estado se actualiza en el gráfico de tareas.
El panel Información de la tarea muestra el estado general de la tarea. Si el trabajo se completa correctamente, el campo Estado del trabajo se actualiza a Succeeded
.
Siguientes pasos
- Usa la interfaz de monitorización de trabajos de Dataflow.
- Crea una tarea personalizada en el creador de tareas.
- Guarda y carga definiciones de trabajos en formato YAML en el creador de trabajos.
- Consulta más información sobre YAML de Beam.