Cloud Data Fusion admite fuentes de Pub/Sub en canalizaciones de datos de transmisión.
Antes de comenzar
Funciones y permisos
Para obtener los permisos que necesitas para leer desde una fuente de transmisión de Pub/Sub, pídele a tu administrador que te otorgue el rol de IAM de editor de Pub/Sub (roles/pubsub.editor
) en la cuenta de servicio que se usa para acceder a la suscripción de Pub/Sub.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Este rol predefinido contiene los permisos necesarios para leer desde una fuente de transmisión de Pub/Sub. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:
Permisos necesarios
Se requieren los siguientes permisos para leer desde una fuente de transmisión de Pub/Sub:
-
pubsub.snapshots.create
-
pubsub.snapshots.delete
-
pubsub.snapshots.seek
-
pubsub.subscriptions.consume
-
pubsub.topics.attachSubscription
También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.
Otorgas el rol a la cuenta de servicio que especificaste en las propiedades del complemento para acceder a Pub/Sub. Si no especificas ninguno, otorga el en la cuenta de servicio de Dataproc.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso.
Agrega una fuente de Pub/Sub a tu canalización de transmisión de datos
Ve a tu instancia:
En la consola de Google Cloud, ve a la página de Cloud Data Fusion.
Para abrir la instancia en Cloud Data Fusion Studio, haz clic en Instancias y, luego, en Ver instancia.
En la interfaz web de Cloud Data Fusion, haz clic en Studio.
Selecciona Canalización de datos: tiempo real.
En el menú Fuente, selecciona Pub/Sub. Una instancia de Pub/Sub un nodo fuente de transmisión en la canalización.
En el nodo de Pub/Sub, haz clic en Properties para configurar la fuente. Para obtener más información, consulta Fuente de transmisión de Pub/Sub.
Compatibilidad con una sola fuente de Pub/Sub sin complementos de Windower
La versión 6.9.1 de Cloud Data Fusion admite canalizaciones en tiempo real con un solo Fuente de transmisión de Pub/Sub y sin complementos de Windower.
- La fuente de transmisión de Pub/Sub tiene asistencia integrada, y los datos se que se procesan al menos una vez. No es necesario habilitar los puntos de control de Spark.
- La fuente de transmisión de Pub/Sub crea Instantánea de Pub/Sub al comienzo de cada lote y los quita al final.
- La creación de instantáneas de Pub/Sub tiene un costo asociado. Para obtener más información, consulta Precios de Pub/Sub.
- Puedes supervisar la creación de instantáneas en los Registros de auditoría de Cloud.
Actualiza una canalización con una fuente de transmisión de Pub/Sub
Cloud Data Fusion admite actualizaciones de aplicaciones directas para canalizaciones de transmisión con una fuente de transmisión de Pub/Sub creada en 6.9.1 o versiones posteriores.
Cloud Data Fusion no admite actualizaciones para canalizaciones de datos con un Fuente de transmisión de Pub/Sub en la versión 6.9.0 o anterior. En cambio, actualizar esas canalizaciones a la versión 6.9.1:
- Deja de publicar los datos en el tema cuando esté planificada la actualización de la instancia.
- Espera a que la canalización termine de procesar los datos publicados.
- Una vez que los datos se hayan procesado por completo, detén la canalización.
- Actualiza la instancia.
- Duplica la canalización existente y actualízala a los complementos más recientes.
- Implementa la canalización.
Ejecutar la canalización nueva para leer datos
La versión nueva usa automáticamente la instantánea en lugar del punto de control de Spark.
Borra la canalización anterior.
¿Qué sigue?
- Consulta la fuente de transmisión de Pub/Sub de CDAP.