Lire à partir d'une source de streaming Pub/Sub

Cloud Data Fusion est compatible avec les sources Pub/Sub dans les pipelines de flux de données.

Avant de commencer

Rôles et autorisations

Pour obtenir les autorisations dont vous avez besoin pour lire à partir d'une source de flux Pub/Sub, demandez à votre administrateur de vous accorder le Rôle IAM Éditeur Pub/Sub (roles/pubsub.editor) sur le compte de service utilisé pour accéder à l'abonnement Pub/Sub. Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Ce rôle prédéfini contient les autorisations requises pour lire à partir d'une source de streaming Pub/Sub. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour lire les données d'une source de streaming Pub/Sub:

  • pubsub.snapshots.create
  • pubsub.snapshots.delete
  • pubsub.snapshots.seek
  • pubsub.subscriptions.consume
  • pubsub.topics.attachSubscription

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Vous attribuez le rôle au compte de service que vous avez spécifié dans les propriétés du plug-in pour accéder à Pub/Sub. Si aucun n'est spécifié, attribuez le rôle au compte de service Dataproc.

Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Ajouter une source Pub/Sub à votre pipeline de données en flux continu

  1. Accédez à votre instance:

    1. Dans la console Google Cloud, accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, Cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Dans l'interface Web de Cloud Data Fusion, cliquez sur Studio.

  3. Sélectionnez Data Pipeline - Realtime (Pipeline de données - Temps réel).

  4. Dans le menu Source, sélectionnez Pub/Sub. Un Pub/Sub source de flux de données apparaît dans le pipeline.

  5. Dans le nœud Pub/Sub, cliquez sur Properties (Propriétés) pour configurer la source. Pour en savoir plus, consultez la section Source de flux Pub/Sub.

Compatibilité avec une seule source Pub/Sub sans plug-ins de fenêtrage

Cloud Data Fusion version 6.9.1 accepte les pipelines en temps réel avec un seul Source de streaming Pub/Sub et aucun plug-in Windower.

  • La source de streaming Pub/Sub est compatible et les données sont traitées au moins une fois. L'activation des points de contrôle Spark n'est pas obligatoire.
  • La source de diffusion Pub/Sub crée un Instantané Pub/Sub au début de chaque lot et le supprime à la fin de chaque lot.
  • La création d'instantanés Pub/Sub génère des frais. Pour en savoir plus, consultez les tarifs de Pub/Sub.
  • Vous pouvez surveiller la création d'instantanés dans Cloud Audit Logs.

Mettre à niveau un pipeline avec une source de données par flux Pub/Sub

Cloud Data Fusion est compatible avec les mises à niveau directes des applications. des pipelines de traitement par flux avec une source de flux Pub/Sub créée dans 6.9.1 ou version ultérieure.

Cloud Data Fusion ne permet pas de mettre à niveau les pipelines de données avec une Source de streaming Pub/Sub dans la version 6.9.0 ou antérieure. Mettez plutôt à niveau ces pipelines vers la version 6.9.1 :

  1. Arrêtez la publication des données sur le sujet lorsque la mise à niveau de l'instance est planifiée.
  2. Attendez que le pipeline ait terminé de traiter les données publiées.
  3. Une fois les données entièrement traitées, arrêtez le pipeline.
  4. Mettez à niveau l'instance.
  5. Dupliquez le pipeline existant et passez aux derniers plug-ins.
  6. Déployez le pipeline.
  7. Exécutez le nouveau pipeline pour lire les données.

    La nouvelle version utilise automatiquement les instantanés au lieu de créer des points de contrôle Spark.

  8. Supprimez l'ancien pipeline.

Étape suivante