Cloud Data Fusion est compatible avec les sources Pub/Sub dans les pipelines de flux de données.
Avant de commencer
Rôles et autorisations
Pour obtenir les autorisations dont vous avez besoin pour lire les données d'une source de streaming Pub/Sub, demandez à votre administrateur de vous attribuer le rôle IAM Éditeur Pub/Sub (roles/pubsub.editor
) sur le compte de service utilisé pour accéder à l'abonnement Pub/Sub.
Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.
Ce rôle prédéfini contient les autorisations requises pour lire à partir d'une source de streaming Pub/Sub. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :
Autorisations requises
Les autorisations suivantes sont requises pour lire à partir d'une source de streaming Pub/Sub:
-
pubsub.snapshots.create
-
pubsub.snapshots.delete
-
pubsub.snapshots.seek
-
pubsub.subscriptions.consume
-
pubsub.topics.attachSubscription
Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.
Vous accordez le rôle au compte de service que vous avez spécifié dans les propriétés du plug-in pour accéder à Pub/Sub. Si aucun rôle n'est spécifié, accordez le rôle au compte de service Dataproc.
Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.
Ajouter une source Pub/Sub à votre pipeline de flux de données
Accédez à votre instance :
Dans la console Google Cloud, accédez à la page "Cloud Data Fusion".
Pour ouvrir l'instance dans l'interface Web de Cloud Data Fusion, cliquez sur Instances, puis sur Afficher l'instance.
Dans l'interface Web de Cloud Data Fusion, cliquez sur Studio.
Sélectionnez Data Pipeline - Realtime (Pipeline de données – Temps réel).
Dans le menu Source, sélectionnez Pub/Sub. Un nœud source de streaming Pub/Sub apparaît dans le pipeline.
Sur le nœud Pub/Sub, cliquez sur Propriétés pour configurer la source. Pour en savoir plus, consultez la section Source de streaming Pub/Sub.
Compatibilité avec une seule source Pub/Sub sans plug-ins Windower
La version 6.9.1 de Cloud Data Fusion prend en charge les pipelines en temps réel avec une seule source de flux Pub/Sub et aucun plug-in Windower.
- La source de streaming Pub/Sub est compatible avec l'API, et les données sont traitées au moins une fois. L'activation des points de contrôle Spark n'est pas nécessaire.
- La source de streaming Pub/Sub crée un instantané Pub/Sub au début de chaque lot et le supprime à la fin de chaque lot.
- La création d'instantanés Pub/Sub entraîne un coût. Pour en savoir plus, consultez la page Tarifs de Pub/Sub.
- Vous pouvez surveiller la création d'instantanés dans Cloud Audit Logs.
Mettre à niveau un pipeline avec une source de flux Pub/Sub
Cloud Data Fusion est compatible avec les mises à niveau d'application directes pour les pipelines de flux de données avec une source de streaming Pub/Sub créée dans la version 6.9.1 ou ultérieure.
Cloud Data Fusion n'est pas compatible avec les mises à niveau des pipelines de données avec une source de streaming Pub/Sub dans la version 6.9.0 ou antérieure. Mettez plutôt à niveau ces pipelines vers la version 6.9.1:
- Arrêtez de publier les données sur le sujet lorsque la mise à niveau de l'instance est planifiée.
- Attendez que le pipeline ait fini de traiter les données publiées.
- Une fois les données entièrement traitées, arrêtez le pipeline.
- Mettez à niveau l'instance.
- Dupliquez le pipeline existant et effectuez la mise à jour vers les plug-ins les plus récents.
- Déployez le pipeline.
Exécutez le nouveau pipeline pour lire les données.
La nouvelle version utilise automatiquement un instantané au lieu du point de contrôle Spark.
Supprimez l'ancien pipeline.
Étapes suivantes
- Reportez-vous à la source de streaming Pub/Sub de CDAP.