Crea un trabajo personalizado con el Creador de trabajos
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
El compilador de trabajos te permite crear trabajos personalizados de Dataflow por lotes y de transmisión. También puedes guardar trabajos del compilador de trabajos como archivos YAML de Apache Beam para compartirlos y reutilizarlos.
Crea una canalización nueva
Para crear una canalización nueva en el compilador de trabajos, sigue estos pasos:
Ve a la página Trabajos en la Google Cloud consola.
Haz clic en add_boxCrear trabajo a partir del compilador.
En Nombre del trabajo, ingresa un nombre para el trabajo.
Selecciona Lotes o Transmisión.
Si seleccionas Transmisión, selecciona un modo de renderización en ventanas. Luego, ingresa una especificación para la ventana, de la siguiente manera:
Ventana fija: Ingresa un tamaño de ventana, en segundos.
Intervalo deslizante: Ingresa un tamaño y un período de la ventana, en segundos.
Ventana de sesión: Ingresa un intervalo de la sesión, en segundos.
A continuación, agrega fuentes, transformaciones y destinos a la canalización, como se describe en las siguientes secciones.
Agrega una fuente a la canalización
Una canalización debe tener al menos una fuente. Inicialmente, el compilador de trabajos se propaga con una fuente vacía. Para configurar la fuente, sigue estos pasos:
En el cuadro Nombre de la fuente, ingresa un nombre para la fuente o usa el nombre predeterminado. El nombre aparece en el gráfico de trabajo cuando lo ejecutas.
En la lista Tipo de fuente, selecciona el tipo de fuente de datos.
Según el tipo de fuente, proporciona información de configuración adicional.
Por ejemplo, si seleccionas BigQuery, especifica la tabla de la que se leerá.
Si seleccionas Pub/Sub, especifica un esquema de mensaje. Ingresa el nombre y el tipo de datos de cada campo que deseas leer de los mensajes de Pub/Sub. La canalización descarta los campos que no se especifican en el esquema.
Opcional: En algunos tipos de fuentes, puedes hacer clic en Obtener vista previa de los datos de origen para obtener una vista previa de los datos de origen.
Para agregar otra fuente a la canalización, haz clic en Agregar una fuente. Para combinar datos de varias fuentes, agrega una transformación SQL o Join a tu canalización.
Agrega una transformación a la canalización
De manera opcional, agrega una o más transformaciones a la canalización. Puedes usar las siguientes transformaciones para manipular, agregar o unir datos de fuentes y otras transformaciones:
Usa cualquier transformación del SDK de Beam YAML.
Configuración de transformación de YAML: Proporciona los parámetros de configuración de la transformación de YAML como un mapa de YAML. Los pares clave-valor se usan para completar la sección de configuración de la transformación de Beam YAML resultante. Para conocer los parámetros de configuración admitidos
para cada tipo de transformación, consulta la
documentación de transformación de Beam YAML.
Parámetros de configuración de ejemplo:
Para agregar una transformación, haz lo siguiente:
Haz clic en Agregar una transformación.
En el cuadro de nombre Transform, ingresa un nombre para la transformación o usa el nombre predeterminado. El nombre aparece en el gráfico de trabajo cuando lo ejecutas.
En la lista Tipo de transformación, selecciona el tipo de transformación.
Según el tipo de transformación, proporciona información de configuración adicional. Por ejemplo, si seleccionas Filtro (Python), ingresa una expresión de Python para usarla como filtro.
Selecciona el paso de entrada para la transformación. El paso de entrada es la fuente o transformación cuyo resultado proporciona la entrada para esta transformación.
Agrega un receptor a la canalización
Una canalización debe tener al menos un receptor. Inicialmente, el compilador de trabajos se propaga con un receptor vacío. Para configurar el receptor, sigue estos pasos:
En el cuadro Nombre del receptor, ingresa un nombre para el receptor o usa el nombre predeterminado.
El nombre aparece en el gráfico de trabajo cuando lo ejecutas.
En la lista Tipo de receptor, selecciona el tipo de receptor.
Según el tipo de receptor, proporciona información de configuración adicional.
Por ejemplo, si seleccionas el receptor de BigQuery, elige la tabla de BigQuery en la que se escribirá.
Selecciona el paso de entrada del receptor. El paso de entrada es la fuente o la transformación cuya salida proporciona la entrada para esta transformación.
Para agregar otro sumidero a la canalización, haz clic en Agregar un sumidero.
Ejecuta la canalización
Para ejecutar una canalización desde el compilador de trabajos, sigue estos pasos:
Opcional: Configura las opciones del trabajo de Dataflow. Para expandir la sección de opciones de flujo de datos, haz clic en la flecha de expansión arrow_right.
Haga clic en Ejecutar trabajo. El compilador de trabajos navega al gráfico del trabajo del trabajo enviado. Puedes usar el grafo de trabajo para supervisar el estado del trabajo.
Valida la canalización antes de iniciarla
En el caso de las canalizaciones con una configuración compleja, como los filtros de Python y las expresiones SQL, puede ser útil verificar la configuración de la canalización para detectar errores de sintaxis antes de iniciarla. Para validar la sintaxis de la canalización, sigue estos pasos:
Haz clic en Validar para abrir Cloud Shell y, luego, iniciar el servicio de validación.
Haz clic en Comenzar la validación.
Si se encuentra un error durante la validación, aparecerá un signo de exclamación rojo.
Corrige los errores detectados y verifica las correcciones haciendo clic en Validar. Si no se encuentra ningún error, aparecerá una marca de verificación verde.
Ejecuta con gcloud CLI
También puedes ejecutar canalizaciones de Beam YAML con gcloud CLI. Para ejecutar una canalización de compilación de trabajos con gcloud CLI, haz lo siguiente:
Haz clic en Guardar YAML para abrir la ventana Guardar YAML.
Realiza una de las siguientes acciones:
Para guardar en Cloud Storage, ingresa una ruta de Cloud Storage y haz clic en Guardar.
Para descargar un archivo local, haz clic en Descargar.
Ejecuta el siguiente comando en tu shell o terminal:
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-09 (UTC)"],[[["\u003cp\u003eThe job builder tool allows users to create custom batch and streaming Dataflow jobs directly in the Google Cloud console.\u003c/p\u003e\n"],["\u003cp\u003eUsers can define the pipeline by adding sources, transforms, and sinks, each with customizable settings depending on its type.\u003c/p\u003e\n"],["\u003cp\u003eThe tool provides features to validate pipeline configurations, run the pipeline, and monitor job progress via a job graph.\u003c/p\u003e\n"],["\u003cp\u003eJobs created with the builder can be saved as Apache Beam YAML files for sharing, reuse, and running with the gcloud CLI.\u003c/p\u003e\n"],["\u003cp\u003eTo run the pipeline, you must add at least one source and one sink, you can also add additional transforms to further manipulate the pipeline.\u003c/p\u003e\n"]]],[],null,["# Create a custom job with the job builder\n\nThe job builder lets you create custom batch and streaming Dataflow\njobs. You can also save job builder jobs as\n[Apache Beam YAML](https://beam.apache.org/documentation/sdks/yaml/)\nfiles to share and reuse.\n\nCreate a new pipeline\n---------------------\n\nTo create a new pipeline in the job builder, follow these steps:\n\n1. Go to the **Jobs** page in the Google Cloud console.\n\n [Go to Jobs](https://console.cloud.google.com/dataflow)\n2. Click add_box**Create job from\n builder**.\n\n3. For **Job name**, enter a name for the job.\n\n4. Select either **Batch** or **Streaming**.\n\n5. If you select **Streaming**, select a windowing mode. Then enter a\n specification for the window, as follows:\n\n - Fixed window: Enter a window size, in seconds.\n - Sliding window: Enter a window size and window period, in seconds.\n - Session window: Enter a session gap, in seconds.\n\n For more information about windowing, see\n [Windows and windowing functions](/dataflow/docs/concepts/streaming-pipelines#windows).\n\nNext, add sources, transforms, and sinks to the pipeline, as described in the\nfollowing sections.\n\n### Add a source to the pipeline\n\nA pipeline must have at least one source. Initially, the job builder is\npopulated with an empty source. To configure the source, perform the following\nsteps:\n\n1. In the **Source name** box, enter a name for the source or use the default\n name. The name appears in the job graph when you run the job.\n\n2. In the **Source type** list, select the type of data source.\n\n3. Depending on the source type, provide additional configuration information.\n For example, if you select BigQuery, specify the table to read\n from.\n\n If you select Pub/Sub, specify a message schema. Enter the name\n and data type of each field that you want to read from Pub/Sub\n messages. The pipeline drops any fields that aren't specified in the schema.\n4. Optional: For some source types, you can click **Preview source data** to\n preview the source data.\n\nTo add another source to the pipeline, click **Add a source** . To combine data\nfrom multiple sources, add a `SQL` or `Join` transform to your pipeline.\n\n### Add a transform to the pipeline\n\nOptionally, add one or more transforms to the pipeline. You can use the\nfollowing transforms to manipulate, aggregate, or join data from sources and\nother transforms:\n\nTo add a transform:\n\n1. Click **Add a transform**.\n\n2. In the **Transform** name box, enter a name for the transform or use the\n default name. The name appears in the job graph when you run the job.\n\n3. In the **Transform type** list, select the type of transform.\n\n4. Depending on the transform type, provide additional configuration\n information. For example, if you select **Filter (Python)**, enter a Python\n expression to use as the filter.\n\n5. Select the input step for the transform. The input step is the source or\n transform whose output provides the input for this transform.\n\n | **Note:** The `SQL` and `Join` transform can have multiple input steps.\n\n### Add a sink to the pipeline\n\nA pipeline must have at least one sink. Initially, the job builder is\npopulated with an empty sink. To configure the sink, perform the following\nsteps:\n\n1. In the **Sink name** box, enter a name for the sink or use the default name.\n The name appears in the job graph when you run the job.\n\n2. In the **Sink type** list, select the type of sink.\n\n3. Depending on the sink type, provide additional configuration information.\n For example, if you select the BigQuery sink, select the\n BigQuery table to write to.\n\n4. Select the input step for the sink. The input step is the source or transform\n whose output provides the input for this transform.\n\n5. To add another sink to the pipeline, click **Add a sink**.\n\nRun the pipeline\n----------------\n\nTo run a pipeline from the job builder, perform the following steps:\n\n1. Optional: Set Dataflow job options. To expand the\n Dataflow options section, click the\n arrow_rightexpander arrow.\n\n2. Click **Run job** . The job builder navigates to the\n [job graph](/dataflow/docs/guides/job-graph) for the submitted job. You can\n use the job graph to monitor the status of the job.\n\n| **Note:** You can load the pipeline's configuration back into the job builder by clicking the **Clone** button.\n\nValidate the pipeline before launching\n--------------------------------------\n\nFor pipelines with complex configuration, such as Python filters and SQL\nexpressions, it can be helpful to check the pipeline configuration for syntax errors before\nlaunching. To validate the pipeline syntax, perform the following steps:\n\n1. Click **Validate** to open Cloud Shell and start the validation service.\n2. Click **Start Validating**.\n3. If an error is found during validation, a red exclamation mark appears.\n4. Fix any detected errors and verify the fixes by clicking **Validate**. If no error is found, a green checkmark appears.\n\nRun with the gcloud CLI\n-----------------------\n\nYou can also run Beam YAML pipelines by using the gcloud CLI. To\nrun a job builder pipeline with the gcloud CLI:\n\n1. Click **Save YAML** to open the **Save YAML** window.\n\n2. Perform one of the following actions:\n\n - To save to Cloud Storage, enter a Cloud Storage path and click **Save**.\n - To download a local file, click **Download**.\n3. Run the following command in your shell or terminal:\n\n gcloud dataflow yaml run my-job-builder-job --yaml-pipeline-file=\u003cvar translate=\"no\"\u003eYAML_FILE_PATH\u003c/var\u003e\n\n Replace \u003cvar translate=\"no\"\u003eYAML_FILE_PATH\u003c/var\u003e with the path of your YAML file, either locally or in Cloud Storage.\n\nWhat's next\n-----------\n\n- [Use the Dataflow job monitoring interface](/dataflow/docs/guides/monitoring-overview).\n- [Save and load](/dataflow/docs/guides/job-builder-save-load-yaml) YAML job definitions in the job builder.\n- Learn more about [Beam YAML](https://beam.apache.org/documentation/sdks/yaml/)."]]