El compilador de trabajos es una IU visual para compilar y ejecutar canalizaciones de Dataflow en la consola de Google Cloud, sin escribir código.
En la siguiente imagen, se muestra un detalle de la IU del compilador de trabajos. En esta imagen, el usuario está creando una canalización para leer de Pub/Sub a BigQuery:
Descripción general
El compilador de trabajos admite la lectura y escritura de los siguientes tipos de datos:
- Mensajes de Pub/Sub
- Datos de la tabla de BigQuery
- Archivos CSV, JSON y de texto en Cloud Storage
Admite transformaciones de canalización, como filtrar, unir, asignar, agrupar y explotar (aplanar el array).
El compilador de trabajos también puede guardar canalizaciones como archivos YAML de Apache Beam. Con esta función, puedes diseñar tu canalización en el compilador de trabajos y, luego, almacenar el archivo YAML en Cloud Storage o en un repositorio de control de código fuente para reutilizarlo.
Considera el compilador de trabajos para los siguientes casos de uso:
- Quieres crear una canalización rápidamente sin escribir código.
- Quieres guardar una canalización en YAML para volver a usarla.
- Tu canalización se puede expresar con las fuentes, los receptores y las transformaciones compatibles.
- No hay ninguna plantilla proporcionada por Google que coincida con tu caso de uso.
Crea una canalización nueva
Para crear una canalización nueva en el compilador de trabajos, sigue estos pasos:
Ve a la página Trabajos en la consola de Google Cloud.
Haz clic en
Crear trabajo a partir de una plantilla.Haz clic en Compilador de trabajos.
En Nombre del trabajo, ingresa un nombre para el trabajo.
Selecciona Lotes o Transmisión.
Si seleccionas Transmisión, selecciona un modo de renderización en ventanas. Luego, ingresa una especificación para la ventana, de la siguiente manera:
- Ventana fija: Ingresa un tamaño de ventana, en segundos.
- Intervalo deslizante: Ingresa un tamaño y un período de la ventana, en segundos.
- Ventana de sesión: Ingresa un intervalo de la sesión, en segundos.
Para obtener más información sobre las ventanas, consulta Ventanas y funciones de ventanas.
A continuación, agrega fuentes, transformaciones y destinos a la canalización, como se describe en las siguientes secciones.
Agrega una fuente a la canalización
Una canalización debe tener al menos una fuente. Inicialmente, el compilador de trabajos se propaga con una fuente vacía. Para configurar la fuente, sigue estos pasos:
En el cuadro Nombre de la fuente, ingresa un nombre para la fuente o usa el nombre predeterminado. El nombre aparece en el gráfico de trabajo cuando lo ejecutas.
En la lista Tipo de fuente, selecciona el tipo de fuente de datos.
Según el tipo de fuente, proporciona información de configuración adicional. Por ejemplo, si seleccionas BigQuery, especifica la tabla de la que se leerá.
Si seleccionas Pub/Sub, especifica un esquema de mensaje. Ingresa el nombre y el tipo de datos de cada campo que deseas leer de los mensajes de Pub/Sub. La canalización descarta los campos que no se especifican en el esquema.
Opcional: En algunos tipos de fuentes, puedes hacer clic en Obtener vista previa de los datos de origen para obtener una vista previa de los datos de origen.
Para agregar otra fuente a la canalización, haz clic en Agregar una fuente. Para combinar datos de varias fuentes, agrega la transformación Join
a tu canalización.
Agrega una transformación a la canalización
De manera opcional, agrega una o más transformaciones a la canalización. Para agregar una transformación, haz lo siguiente:
Haz clic en Agregar una transformación.
En el cuadro de nombre Transform, ingresa un nombre para la transformación o usa el nombre predeterminado. El nombre aparece en el gráfico de trabajo cuando lo ejecutas.
En la lista Tipo de transformación, selecciona el tipo de transformación.
Según el tipo de transformación, proporciona información de configuración adicional. Por ejemplo, si seleccionas Filtro (Python), ingresa una expresión de Python para usarla como filtro.
Selecciona el paso de entrada para la transformación. El paso de entrada es la fuente o transformación cuyo resultado proporciona la entrada para esta transformación.
Agrega un receptor a la canalización
Una canalización debe tener al menos un receptor. Inicialmente, el compilador de trabajos se propaga con un receptor vacío. Para configurar el receptor, sigue estos pasos:
En el cuadro Nombre del receptor, ingresa un nombre para el receptor o usa el nombre predeterminado. El nombre aparece en el gráfico de trabajo cuando lo ejecutas.
En la lista Tipo de receptor, selecciona el tipo de receptor.
Según el tipo de receptor, proporciona información de configuración adicional. Por ejemplo, si seleccionas el receptor de BigQuery, elige la tabla de BigQuery en la que se escribirá.
Selecciona el paso de entrada del receptor. El paso de entrada es la fuente o la transformación cuya salida proporciona la entrada para esta transformación.
Para agregar otro sumidero a la canalización, haz clic en Agregar un sumidero.
Ejecuta la canalización
Para ejecutar una canalización desde el compilador de trabajos, sigue estos pasos:
Opcional: Configura las opciones del trabajo de Dataflow. Para expandir la sección de opciones de flujo de datos, haz clic en la flecha de expansión
.Haga clic en Ejecutar trabajo. El compilador de trabajos navega al gráfico del trabajo del trabajo enviado. Puedes usar el grafo de trabajo para supervisar el estado del trabajo.
Guarda una canalización
Para guardar una canalización en Beam YAML, haz lo siguiente:
Haz clic en Guardar para abrir la ventana Guardar YAML.
Realiza una de las siguientes acciones:
- Para copiar el YAML en el portapapeles, haz clic en Copiar.
- Para guardar en Cloud Storage, ingresa una ruta de Cloud Storage y haz clic en Guardar.
- Para descargar un archivo local, haz clic en Descargar.
Carga una canalización
Después de guardar una canalización en Beam YAML, puedes volver a cargarla en el compilador de trabajos. Luego, puedes usar el compilador de trabajos para modificar o ejecutar la canalización.
Puedes cargar Beam YAML desde Cloud Storage o desde texto.
Carga una canalización desde Cloud Storage
Para cargar una canalización desde Cloud Storage, haz lo siguiente:
- Haz clic en Cargar.
- Haz clic en Cargar desde Cloud Storage.
- En el cuadro Ubicación del archivo YAML, ingresa la ubicación de Cloud Storage del archivo YAML o haz clic en Explorar para seleccionarlo.
- Haz clic en Cargar.
Carga una canalización a partir de texto
Para cargar una canalización desde el texto, sigue estos pasos:
- Haz clic en Cargar.
- Haz clic en Cargar desde texto.
- Pega el YAML en la ventana.
- Haz clic en Cargar.
¿Qué sigue?
- Usa la interfaz de supervisión de trabajos de Dataflow
- Obtén más información sobre YAML de Beam.