Lee desde una fuente de transmisión de Pub/Sub

Cloud Data Fusion admite fuentes de Pub/Sub en canalizaciones de datos de transmisión.

Antes de comenzar

Funciones y permisos

Para obtener los permisos que necesitas para leer una fuente de transmisión de Pub/Sub, pídele a tu administrador que te otorgue el rol de IAM de editor de Pub/Sub (roles/pubsub.editor) en la cuenta de servicio que se usa para acceder a la suscripción de Pub/Sub. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene los permisos necesarios para leer desde una fuente de transmisión de Pub/Sub. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para leer desde una fuente de transmisión de Pub/Sub:

  • pubsub.snapshots.create
  • pubsub.snapshots.delete
  • pubsub.snapshots.seek
  • pubsub.subscriptions.consume
  • pubsub.topics.attachSubscription

También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.

Otorgas el rol en la cuenta de servicio que especificaste en las propiedades del complemento para acceder a Pub/Sub. Si no se especifica ninguna, otorga el rol en la cuenta de servicio de Dataproc.

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso.

Agrega una fuente de Pub/Sub a tu canalización de datos de transmisión

  1. Ve a tu instancia:

    1. En la Google Cloud consola, ve a la página de Cloud Data Fusion.

    2. Para abrir la instancia en Cloud Data Fusion Studio, haz clic en Instancias y, luego, en Ver instancia.

      Ir a Instancias

  2. En la interfaz web de Cloud Data Fusion, haz clic en Studio.

  3. Selecciona Canalización de datos: En tiempo real.

  4. En el menú Fuente, selecciona Pub/Sub. Aparece un nodo de fuente de transmisión de Pub/Sub en la canalización.

  5. En el nodo de Pub/Sub, haz clic en Propiedades para configurar la fuente. Para obtener más información, consulta Fuente de transmisión de Pub/Sub.

Compatibilidad con una sola fuente de Pub/Sub sin complementos de Windower

La versión 6.9.1 de Cloud Data Fusion admite canalizaciones en tiempo real con una sola fuente de transmisión de Pub/Sub y sin complementos de Windower.

  • La fuente de transmisión de Pub/Sub tiene asistencia integrada y los datos se procesan al menos una vez. No es necesario habilitar los puntos de control de Spark.
  • La fuente de transmisión de Pub/Sub crea una instantánea de Pub/Sub al comienzo de cada lote y la quita al final de cada lote.
  • Crear instantáneas de Pub/Sub tiene un costo asociado. Para obtener más información, consulta Precios de Pub/Sub.
  • Puedes supervisar la creación de instantáneas en los Registros de auditoría de Cloud.

Actualiza una canalización con una fuente de transmisión de Pub/Sub

Cloud Data Fusion admite actualizaciones directas de aplicaciones para canalizaciones de transmisión con una fuente de transmisión de Pub/Sub creada en la versión 6.9.1 o posterior.

Cloud Data Fusion no admite actualizaciones para las canalizaciones de datos con una fuente de transmisión de Pub/Sub en la versión 6.9.0 o anterior. En su lugar, actualiza esas canalizaciones a la versión 6.9.1:

  1. Deja de publicar los datos en el tema cuando se planifique la actualización de la instancia.
  2. Espera a que la canalización termine de procesar los datos publicados.
  3. Una vez que los datos se procesen por completo, detén la canalización.
  4. Actualiza la instancia.
  5. Duplica la canalización existente y actualízala a los complementos más recientes.
  6. Implementa la canalización.
  7. Ejecuta la nueva canalización para leer datos.

    La nueva versión usa automáticamente instantáneas en lugar de puntos de control de Spark.

  8. Borra la canalización anterior.

¿Qué sigue?