Leer datos de una fuente de streaming de Pub/Sub

Cloud Data Fusion admite fuentes de Pub/Sub en flujos de procesamiento de datos.

Antes de empezar

Roles y permisos

Para obtener los permisos que necesitas para leer de una fuente de streaming de Pub/Sub, pide a tu administrador que te conceda el rol de gestión de identidades y accesos Editor de Pub/Sub (roles/pubsub.editor) en la cuenta de servicio que se usa para acceder a la suscripción de Pub/Sub. Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene los permisos necesarios para leer de una fuente de streaming de Pub/Sub. Para ver los permisos exactos que se necesitan, despliega la sección Permisos necesarios:

Permisos obligatorios

Para leer datos de una fuente de streaming de Pub/Sub, se necesitan los siguientes permisos:

  • pubsub.snapshots.create
  • pubsub.snapshots.delete
  • pubsub.snapshots.seek
  • pubsub.subscriptions.consume
  • pubsub.topics.attachSubscription

También puedes obtener estos permisos con roles personalizados u otros roles predefinidos.

Otorgas el rol en la cuenta de servicio que has especificado en las propiedades del complemento para acceder a Pub/Sub. Si no se especifica ninguno, concede el rol a la cuenta de servicio de Dataproc.

Para obtener más información sobre cómo conceder roles, consulta el artículo sobre cómo gestionar el acceso.

Añadir una fuente de Pub/Sub a una canalización de datos de streaming

  1. Ve a tu instancia:

    1. En la Google Cloud consola, ve a la página de Cloud Data Fusion.

    2. Para abrir la instancia en Cloud Data Fusion Studio, haga clic en Instancias y, a continuación, en Ver instancia.

      Ir a Instancias

  2. En la interfaz web de Cloud Data Fusion, haz clic en Studio.

  3. Seleccione Flujo de datos - Tiempo real.

  4. En el menú Fuente, selecciona Pub/Sub. Aparecerá un nodo de origen de streaming de Pub/Sub en el flujo de procesamiento.

  5. En el nodo Pub/Sub, haga clic en Propiedades para configurar la fuente. Para obtener más información, consulta Fuente de streaming de Pub/Sub.

Compatibilidad con una sola fuente de Pub/Sub sin complementos de Windower

La versión 6.9.1 de Cloud Data Fusion admite las canalizaciones en tiempo real con una sola fuente de streaming de Pub/Sub y sin complementos de ventana.

  • La fuente de streaming de Pub/Sub tiene asistencia integrada y los datos se procesan al menos una vez. No es necesario habilitar la creación de puntos de control de Spark.
  • La fuente de streaming de Pub/Sub crea una instantánea de Pub/Sub al principio de cada lote y la elimina al final de cada lote.
  • Crear capturas de Pub/Sub tiene un coste asociado. Para obtener más información, consulta la lista de precios de Pub/Sub.
  • Puedes monitorizar la creación de instantáneas en los registros de auditoría de Cloud.

Actualizar una canalización con una fuente de streaming de Pub/Sub

Cloud Data Fusion admite actualizaciones directas de aplicaciones para flujos de procesamiento en streaming con una fuente de streaming de Pub/Sub creada en la versión 6.9.1 o posterior.

Cloud Data Fusion no admite actualizaciones de flujos de procesamiento de datos con una fuente de streaming de Pub/Sub en la versión 6.9.0 o anteriores. En su lugar, actualiza esas canalizaciones a la versión 6.9.1:

  1. Deja de publicar los datos en el tema cuando se haya programado la actualización de la instancia.
  2. Espera a que la canalización termine de procesar los datos publicados.
  3. Una vez que los datos se hayan procesado por completo, detén la canalización.
  4. Actualiza la instancia.
  5. Duplica la canalización y actualízala a los complementos más recientes.
  6. Implementa el flujo de procesamiento.
  7. Ejecuta la nueva canalización para leer los datos.

    La nueva versión usa automáticamente las copias de seguridad en lugar de los puntos de control de Spark.

  8. Elimina la antigua.

Siguientes pasos