Programar flujos de procesamiento

En este documento se describe cómo programar flujos de procesamiento de BigQuery, así como programar flujos de procesamiento e inspeccionar las ejecuciones programadas.

Los flujos de trabajo se basan en Dataform. Cada programación de canalización se ejecuta con las credenciales de usuario de tu cuenta de Google o con una cuenta de servicio de Dataform que selecciones al configurar la programación.

Los cambios que hagas en una canalización se guardarán automáticamente, pero solo estarán disponibles para ti y para los usuarios a los que se les haya asignado el rol Administrador de Dataform en el proyecto. Para actualizar la programación con una nueva versión de la canalización, debes desplegar la canalización. Al implementar, la programación se actualiza para usar la versión actual de la canalización. Las programaciones siempre ejecutan la versión implementada más reciente.

Las programaciones de las canalizaciones que contienen cuadernos usan una especificación de tiempo de ejecución predeterminada. Durante la ejecución programada de una pipeline que contiene cuadernos, BigQuery escribe la salida del cuaderno en el segmento de Cloud Storage seleccionado durante la creación de la programación.

Antes de empezar

Antes de empezar, crea una canalización.

Habilitar la programación de la canalización

Para programar las canalizaciones, debes asignar los siguientes roles a la cuenta de servicio que quieras usar para programar canalizaciones:

Usuario de cuenta de servicio (roles/iam.serviceAccountUser)
Sigue los pasos de Asignar un solo rol a una cuenta de servicio para añadir tu cuenta de servicio como principal a sí misma. Es decir, añade la cuenta de servicio como principal a la misma cuenta de servicio. A continuación, asigna el rol Usuario de cuenta de servicio a este principal.

Si tu flujo de trabajo contiene consultas SQL, debes asignar los siguientes roles a la cuenta de servicio que quieras usar para las programaciones de flujos de trabajo:

Usuario de trabajo de BigQuery (roles/bigquery.jobUser)
Sigue las instrucciones para conceder un solo rol en un proyecto para asignar el rol Usuario de tareas de BigQuery a tu cuenta de servicio en los proyectos desde los que leen datos tus pipelines.
Lector de datos de BigQuery (roles/bigquery.dataViewer)
Sigue las instrucciones de la sección Asignar un solo rol a un proyecto para asignar el rol Lector de datos de BigQuery a tu cuenta de servicio en los proyectos desde los que leen datos tus pipelines.
Editor de datos de BigQuery (roles/bigquery.dataEditor)
Sigue los pasos para conceder un solo rol en un proyecto para asignar el rol Editor de datos de BigQuery a tu cuenta de servicio en los proyectos en los que escriban datos tus pipelines.

Si tu flujo de trabajo contiene cuadernos, debes asignar los siguientes roles a la cuenta de servicio que quieras usar para programar flujos de trabajo:

Usuario de ejecución de cuaderno (roles/aiplatform.notebookExecutorUser)
Sigue los pasos para asignar un solo rol en un proyecto para asignar el rol Usuario de ejecutor de notebook a tu cuenta de servicio en el proyecto seleccionado.
Administrador de almacenamiento (roles/storage.admin)
Sigue los pasos de Añadir un principal a una política a nivel de segmento para añadir tu cuenta de servicio como principal al segmento de Cloud Storage que quieras usar para almacenar la salida de los cuadernos ejecutados en ejecuciones de canalización programadas y concede el rol Administrador de Storage a este principal.

Además, debes asignar el siguiente rol a la cuenta de servicio predeterminada de Dataform:

Creador de tokens de cuentas de servicio (roles/iam.serviceAccountTokenCreator)
Sigue las instrucciones de la sección Conceder acceso de creación de tokens a una cuenta de servicio para añadir la cuenta de servicio predeterminada de Dataform como principal a tu cuenta de servicio y asigna el rol Creador de tokens de cuenta de servicio a este principal.

Para obtener más información sobre las cuentas de servicio en Dataform, consulta el artículo Acerca de las cuentas de servicio en Dataform.

Roles obligatorios

Para obtener los permisos que necesitas para gestionar las canalizaciones, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos:

  • Eliminar flujos de procesamiento: Administrador de Dataform (roles/dataform.Admin) en el flujo de procesamiento
  • Crear, editar, ejecutar y eliminar programaciones de canalizaciones: Administrador de Dataform (roles/dataform.Admin) en la canalización
  • Ver y ejecutar flujos de trabajo: Lector de Dataform (roles/dataform.Viewer) en el proyecto
  • Ver las programaciones de los flujos de procesamiento: Editor de Dataform (roles/dataform.Editor) en el proyecto

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

Para obtener más información sobre la gestión de identidades y accesos de Dataform, consulta el artículo sobre cómo controlar el acceso con la gestión de identidades y accesos.

Para usar plantillas de entorno de ejecución de cuadernos de Colab al programar canalizaciones, necesitas el rol Usuario de entorno de ejecución de cuadernos (roles/aiplatform.notebookRuntimeUser).

Crear una programación de flujo de procesamiento

Para crear una programación de una canalización, sigue estos pasos:

Panel Explorador

  1. En la Google Cloud consola, ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

  3. Haz clic en Programar.

  4. En el panel Programar una canalización, en el campo Nombre de la programación, escriba un nombre para la programación.

  5. En la sección Autenticación, autoriza la pipeline con las credenciales de usuario de tu cuenta de Google o con una cuenta de servicio.

    • Para usar las credenciales de usuario de tu cuenta de Google (Vista previa), selecciona Ejecutar con mis credenciales de usuario.
    • Para usar una cuenta de servicio, selecciona Ejecutar con la cuenta de servicio seleccionada y, a continuación, elige una cuenta de servicio.
  6. Si tu canalización contiene un cuaderno, en la sección Opciones del cuaderno, selecciona una plantilla de entorno de ejecución de cuaderno de Colab o las especificaciones de entorno de ejecución predeterminadas en el campo Plantilla de entorno de ejecución. Para obtener información sobre cómo crear una plantilla de tiempo de ejecución de un cuaderno de Colab, consulta el artículo Crear una plantilla de tiempo de ejecución.

  7. Si tu canalización contiene un cuaderno, en la sección Opciones del cuaderno, en el campo Segmento de Cloud Storage, haz clic en Buscar y selecciona o crea un segmento de Cloud Storage para almacenar la salida de los cuadernos de tu canalización.

    Se debe conceder el rol de administrador de almacenamiento de IAM a la cuenta de servicio seleccionada en el bucket seleccionado. Para obtener más información, consulta Habilitar la programación de flujos de trabajo.

  8. En la sección Frecuencia de la programación, haga lo siguiente:

    1. En el menú Repetir, selecciona la frecuencia de las ejecuciones de la canalización programadas.
    2. En el campo At time (A las), introduce la hora de las ejecuciones de la canalización programadas.
    3. En el menú Zona horaria, selecciona la zona horaria de la programación.
  9. Haz clic en Crear programación. Si has seleccionado Ejecutar con mis credenciales de usuario como método de autenticación, debes autorizar tu cuenta de Google (Vista previa).

Cuando creas la programación, se despliega automáticamente la versión actual de la canalización. Para actualizar la programación con una nueva versión de la canalización, implementa la canalización.

La versión más reciente de la canalización se ejecuta a la hora y con la frecuencia seleccionadas.

Página Programación

  1. En la Google Cloud consola, ve a la página Programación.

    Ve a Programación.

  2. Haz clic en Crear y, a continuación, selecciona Programación de la canalización en el menú.

  3. En el panel Programar canalización, seleccione la canalización que quiera programar.

  4. En el campo Nombre de la programación, escriba un nombre para la programación.

  5. En la sección Autenticación, autoriza la pipeline con las credenciales de usuario de tu cuenta de Google o con una cuenta de servicio.

    • Para usar las credenciales de usuario de tu cuenta de Google (Vista previa), selecciona Ejecutar con mis credenciales de usuario.
    • Para usar una cuenta de servicio, selecciona Ejecutar con la cuenta de servicio seleccionada y, a continuación, elige una cuenta de servicio.
  6. Si tu canalización contiene un cuaderno, en la sección Opciones del cuaderno, selecciona una plantilla de entorno de ejecución de cuaderno de Colab o las especificaciones de entorno de ejecución predeterminadas en el campo Plantilla de entorno de ejecución. Para obtener información sobre cómo crear una plantilla de tiempo de ejecución de un cuaderno de Colab, consulta el artículo Crear una plantilla de tiempo de ejecución.

  7. Si tu canalización contiene un cuaderno, en el campo Segmento de Cloud Storage, haz clic en Examinar y selecciona o crea un segmento de Cloud Storage para almacenar los resultados de los cuadernos de tu canalización.

    Se debe conceder el rol de administrador de almacenamiento de IAM a la cuenta de servicio seleccionada en el bucket seleccionado. Para obtener más información, consulta Habilitar la programación de flujos de trabajo.

  8. En la sección Frecuencia de la programación, haga lo siguiente:

    1. En el menú Se repite, selecciona la frecuencia de las ejecuciones de la canalización programadas.
    2. En el campo At time (A las), introduce la hora de las ejecuciones de la canalización programadas.
    3. En el menú Zona horaria, selecciona la zona horaria de la programación.
  9. Haz clic en Crear programación. Si has seleccionado Ejecutar con mis credenciales de usuario como método de autenticación, debes autorizar tu cuenta de Google (Vista previa).

Autorizar tu cuenta de Google

Para autenticar el recurso con las credenciales de usuario de tu cuenta de Google, debes conceder manualmente permiso a las canalizaciones de BigQuery para que obtengan el token de acceso de tu cuenta de Google y accedan a los datos de origen en tu nombre. Puedes conceder la aprobación manual con la interfaz del cuadro de diálogo de OAuth.

Solo tienes que dar permiso a las canalizaciones de BigQuery una vez.

Para revocar el permiso que has concedido, sigue estos pasos:

  1. Ve a la página de tu cuenta de Google.
  2. Haz clic en BigQuery Pipelines.
  3. Haz clic en Quitar acceso.

Si se cambian las credenciales para modificar el propietario de una programación de flujo de trabajo, también se requiere una aprobación manual si el nuevo propietario de la cuenta de Google nunca ha creado una programación.

Si tu canalización contiene un cuaderno, también debes conceder manualmente permiso a Colab Enterprise para que obtenga el token de acceso de tu cuenta de Google y acceda a los datos de origen en tu nombre. Solo tienes que dar permiso una vez. Puedes revocar este permiso en la página de la cuenta de Google.

Desplegar un flujo de procesamiento

Al desplegar un flujo de procesamiento, su programación se actualiza con la versión actual del flujo. Las programaciones ejecutan la versión más reciente implementada de la canalización.

Para implementar una canalización, sigue estos pasos:

  1. En la Google Cloud consola, ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

  3. Haz clic en Desplegar.

La programación correspondiente se actualiza con la versión actual de la canalización. La última versión implementada de la canalización se ejecuta a la hora programada.

Inhabilitar una programación

Para pausar las ejecuciones programadas de una canalización seleccionada sin eliminar la programación, puedes inhabilitarla.

Para inhabilitar una programación de una canalización seleccionada, sigue estos pasos:

Panel Explorador

  1. En la Google Cloud consola, ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

  3. Haz clic en Ver programación.

  4. En la tabla Detalles de la programación, en la fila Estado de la programación, haz clic en el interruptor La programación está habilitada.

Página Programación

  1. En la Google Cloud consola, ve a la página Programación.

    Ve a Programación.

  2. Haz clic en el nombre de la canalización seleccionada.

  3. En la página Detalles de la programación, haz clic en Inhabilitar.

Habilitar una programación

Para reanudar las ejecuciones programadas de una programación de canalización inhabilitada, sigue estos pasos:

Panel Explorador

  1. En la Google Cloud consola, ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

  3. Haz clic en Ver programación.

  4. En la tabla Detalles de la programación, en la fila Estado de la programación, haz clic en el interruptor La programación está inhabilitada.

Página Programación

  1. En la Google Cloud consola, ve a la página Programación.

    Ve a Programación.

  2. Haz clic en el nombre de la canalización seleccionada.

  3. En la página Detalles de la programación, haga clic en Habilitar.

Ejecutar manualmente una canalización implementada

Cuando ejecutas manualmente una canalización desplegada en una programación seleccionada, BigQuery ejecuta la canalización desplegada una vez, independientemente de la programación.

Para ejecutar manualmente una canalización implementada, sigue estos pasos:

  1. En la Google Cloud consola, ve a la página Programación.

    Ve a Programación.

  2. Haga clic en el nombre de la programación de la canalización seleccionada.

  3. En la página Detalles de la programación, haga clic en Ejecutar.

Ver todas las programaciones de la canalización

Para ver todas las programaciones de canalizaciones de tu Google Cloud proyecto, sigue estos pasos:

  1. En la Google Cloud consola, ve a la página Programación.

    Ve a Programación.

  2. Opcional: Para mostrar columnas adicionales con detalles de la programación de la canalización, haz clic en Opciones de visualización de columnas y, a continuación, selecciona las columnas y haz clic en Aceptar.

Ver los detalles de la programación de una canalización

Para ver los detalles de una programación de una canalización seleccionada, sigue estos pasos:

Panel Explorador

  1. En la Google Cloud consola, ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

  3. Haz clic en Ver programación.

Página Programación

  1. En la Google Cloud consola, ve a la página Programación.

    Ve a Programación.

  2. Haga clic en el nombre de la programación de la canalización seleccionada.

Ver ejecuciones programadas anteriores

Para ver las ejecuciones anteriores de una programación de canalización seleccionada, sigue estos pasos:

Panel Explorador

  1. En la Google Cloud consola, ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

  3. Haz clic en Ejecuciones.

  4. Opcional: Para actualizar la lista de ejecuciones anteriores, haz clic en Actualizar.

Página Programación

  1. En la Google Cloud consola, ve a la página Programación.

    Ve a Programación.

  2. Haz clic en el nombre de la canalización seleccionada.

  3. En la página Detalles de la programación, en la sección Ejecuciones anteriores, inspecciona las ejecuciones anteriores.

  4. Opcional: Para actualizar la lista de ejecuciones anteriores, haz clic en Actualizar.

Editar una programación de flujo de procesamiento

Para editar una programación de una canalización, sigue estos pasos:

Panel Explorador

  1. En la Google Cloud consola, ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

  3. Haz clic en Ver programación y, a continuación, en Editar.

  4. En el cuadro de diálogo Programar canalización, edita la programación y haz clic en Actualizar programación.

Página Programación

  1. En la Google Cloud consola, ve a la página Programación.

    Ve a Programación.

  2. Haz clic en el nombre de la canalización seleccionada.

  3. En la página Detalles de la programación, haz clic en Editar.

  4. Haz clic en Ver programación y, a continuación, en Editar.

  5. En el cuadro de diálogo Programar canalización, edita la programación y haz clic en Actualizar programación.

Eliminar una programación de canalizaciones

Para eliminar una programación de una canalización de forma permanente, sigue estos pasos:

  1. En la Google Cloud consola, ve a la página Programación.

    Ve a Programación.

  2. Lleva a cabo una de las siguientes acciones:

    • Haga clic en el nombre de la programación de la canalización seleccionada y, a continuación, en la página Detalles de la programación, haga clic en Eliminar.

    • En la fila que contiene la programación de la canalización seleccionada, haga clic en Ver acciones en la columna Acciones y, a continuación, en Eliminar.

  3. En el cuadro de diálogo que aparece, haz clic en Eliminar.

Siguientes pasos