Se usó la API de Cloud Translation para traducir esta página.

Crea un trabajo personalizado con el Creador de trabajos

El compilador de trabajos te permite crear trabajos personalizados de Dataflow por lotes y de transmisión. También puedes guardar trabajos del compilador de trabajos como archivos YAML de Apache Beam para compartirlos y reutilizarlos.

Crea una canalización nueva

Para crear una canalización nueva en el compilador de trabajos, sigue estos pasos:

Ve a la página Trabajos en la Google Cloud consola.

Ir a Trabajos
Haz clic en Crear trabajo a partir del compilador.
En Nombre del trabajo, ingresa un nombre para el trabajo.
Selecciona Lotes o Transmisión.
Si seleccionas Transmisión, selecciona un modo de renderización en ventanas. Luego, ingresa una especificación para la ventana, de la siguiente manera:
- Ventana fija: Ingresa un tamaño de ventana, en segundos.
- Intervalo deslizante: Ingresa un tamaño y un período de la ventana, en segundos.
- Ventana de sesión: Ingresa un intervalo de la sesión, en segundos.
Para obtener más información sobre las ventanas, consulta Ventanas y funciones de ventanas.

A continuación, agrega fuentes, transformaciones y destinos a la canalización, como se describe en las siguientes secciones.

Agrega una fuente a la canalización

Una canalización debe tener al menos una fuente. Inicialmente, el compilador de trabajos se propaga con una fuente vacía. Para configurar la fuente, sigue estos pasos:

En el cuadro Nombre de la fuente, ingresa un nombre para la fuente o usa el nombre predeterminado. El nombre aparece en el gráfico de trabajo cuando lo ejecutas.
En la lista Tipo de fuente, selecciona el tipo de fuente de datos.
Según el tipo de fuente, proporciona información de configuración adicional. Por ejemplo, si seleccionas BigQuery, especifica la tabla de la que se leerá.

Si seleccionas Pub/Sub, especifica un esquema de mensaje. Ingresa el nombre y el tipo de datos de cada campo que deseas leer de los mensajes de Pub/Sub. La canalización descarta los campos que no se especifican en el esquema.
Opcional: En algunos tipos de fuentes, puedes hacer clic en Obtener vista previa de los datos de origen para obtener una vista previa de los datos de origen.

Para agregar otra fuente a la canalización, haz clic en Agregar una fuente. Para combinar datos de varias fuentes, agrega una transformación SQL o Join a tu canalización.

Agrega una transformación a la canalización

De manera opcional, agrega una o más transformaciones a la canalización. Puedes usar las siguientes transformaciones para manipular, agregar o unir datos de fuentes y otras transformaciones:

Tipo de transformación	Descripción	Información de la transformación de YAML de Beam
Filtrar (Python)	Filtra registros con una expresión Python.	Filtrado (Python) Filtros
Transformación de SQL	Manipula registros o une varias entradas con una instrucción de SQL.	Transformaciones con nombre Sql
Asignar campos (Python)	Agrega campos nuevos o reasigna registros completos con funciones y expresiones de Python.	Funciones de asignación MapToFields
Asignar campos (SQL)	Agrega o asigna campos de registros con expresiones SQL.	Funciones de asignación MapToFields
Transformaciones de YAML: AssertEqual AssignTimestamps Combinar Desglosar Filtro Flatten Unirse LogForTesting MLTransform MapToFields PyTransform WindowInfo	Usa cualquier transformación del SDK de Beam YAML. Configuración de transformación de YAML: Proporciona los parámetros de configuración de la transformación de YAML como un mapa de YAML. Los pares clave-valor se usan para completar la sección de configuración de la transformación de Beam YAML resultante. Para conocer los parámetros de configuración admitidos para cada tipo de transformación, consulta la documentación de transformación de Beam YAML. Parámetros de configuración de ejemplo: Combinar group_by: combine: Unirse type: equalities: fields:	Índice de transformación de YAML de Beam
Registro	Registra registros en los registros de trabajadores del trabajo.	LogForTesting
Agrupar por	Combina registros con funciones como `count()` y `sum()`.	Agrupar por
Unirse	Une varias entradas en campos iguales.	Unión de YAML de Beam Unirse
Desglosar	Divide registros aplanando campos de arrays.	Flatmap Explode

Para agregar una transformación, haz lo siguiente:

Haz clic en Agregar una transformación.
En el cuadro de nombre Transform, ingresa un nombre para la transformación o usa el nombre predeterminado. El nombre aparece en el gráfico de trabajo cuando lo ejecutas.
En la lista Tipo de transformación, selecciona el tipo de transformación.
Según el tipo de transformación, proporciona información de configuración adicional. Por ejemplo, si seleccionas Filtro (Python), ingresa una expresión de Python para usarla como filtro.
Selecciona el paso de entrada para la transformación. El paso de entrada es la fuente o transformación cuyo resultado proporciona la entrada para esta transformación.

Nota: Las transformaciones SQL y Join pueden tener varios pasos de entrada.

Agrega un receptor a la canalización

Una canalización debe tener al menos un receptor. Inicialmente, el compilador de trabajos se propaga con un receptor vacío. Para configurar el receptor, sigue estos pasos:

En el cuadro Nombre del receptor, ingresa un nombre para el receptor o usa el nombre predeterminado. El nombre aparece en el gráfico de trabajo cuando lo ejecutas.
En la lista Tipo de receptor, selecciona el tipo de receptor.
Según el tipo de receptor, proporciona información de configuración adicional. Por ejemplo, si seleccionas el receptor de BigQuery, elige la tabla de BigQuery en la que se escribirá.
Selecciona el paso de entrada del receptor. El paso de entrada es la fuente o la transformación cuya salida proporciona la entrada para esta transformación.
Para agregar otro sumidero a la canalización, haz clic en Agregar un sumidero.

Ejecuta la canalización

Para ejecutar una canalización desde el compilador de trabajos, sigue estos pasos:

Opcional: Configura las opciones del trabajo de Dataflow. Para expandir la sección de opciones de flujo de datos, haz clic en la flecha de expansión .
Haga clic en Ejecutar trabajo. El compilador de trabajos navega al gráfico del trabajo del trabajo enviado. Puedes usar el grafo de trabajo para supervisar el estado del trabajo.

Valida la canalización antes de iniciarla

En el caso de las canalizaciones con una configuración compleja, como los filtros de Python y las expresiones SQL, puede ser útil verificar la configuración de la canalización para detectar errores de sintaxis antes de iniciarla. Para validar la sintaxis de la canalización, sigue estos pasos:

Haz clic en Validar para abrir Cloud Shell y, luego, iniciar el servicio de validación.
Haz clic en Comenzar la validación.
Si se encuentra un error durante la validación, aparecerá un signo de exclamación rojo.
Corrige los errores detectados y verifica las correcciones haciendo clic en Validar. Si no se encuentra ningún error, aparecerá una marca de verificación verde.

Ejecuta con gcloud CLI

También puedes ejecutar canalizaciones de Beam YAML con gcloud CLI. Para ejecutar una canalización de compilación de trabajos con gcloud CLI, haz lo siguiente:

Haz clic en Guardar YAML para abrir la ventana Guardar YAML.
Realiza una de las siguientes acciones:
- Para guardar en Cloud Storage, ingresa una ruta de Cloud Storage y haz clic en Guardar.
- Para descargar un archivo local, haz clic en Descargar.
Ejecuta el siguiente comando en tu shell o terminal:
```
  gcloud dataflow yaml run my-job-builder-job --yaml-pipeline-file=YAML_FILE_PATH
```
Reemplaza YAML_FILE_PATH por la ruta de acceso a tu archivo YAML, ya sea de forma local o en Cloud Storage.

¿Qué sigue?

Usa la interfaz de supervisión de trabajos de Dataflow
Guardar y cargar definiciones de trabajos en YAML en el compilador de trabajos
Obtén más información sobre YAML de Beam.