Lire à partir d'une source de streaming Pub/Sub

Cloud Data Fusion est compatible avec les sources Pub/Sub dans les pipelines de données en flux continu.

Avant de commencer

Rôles et autorisations

Pour obtenir les autorisations nécessaires pour lire une source de flux Pub/Sub, demandez à votre administrateur de vous accorder le rôle IAM Éditeur Pub/Sub (roles/pubsub.editor) sur le compte de service utilisé pour accéder à l'abonnement Pub/Sub. Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Ce rôle prédéfini contient les autorisations requises pour lire à partir d'une source de flux Pub/Sub. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour lire les données d'une source de flux Pub/Sub :

  • pubsub.snapshots.create
  • pubsub.snapshots.delete
  • pubsub.snapshots.seek
  • pubsub.subscriptions.consume
  • pubsub.topics.attachSubscription

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Vous attribuez le rôle au compte de service que vous avez spécifié dans les propriétés du plug-in pour accéder à Pub/Sub. Si aucun n'est spécifié, accordez le rôle sur le compte de service Dataproc.

Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Ajouter une source Pub/Sub à votre pipeline de données en flux continu

  1. Accédez à votre instance :

    1. Dans la console Google Cloud , accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Dans l'interface Web de Cloud Data Fusion, cliquez sur Studio.

  3. Sélectionnez Pipeline de données – Temps réel.

  4. Dans le menu Source, sélectionnez Pub/Sub. Un nœud source de flux Pub/Sub s'affiche dans le pipeline.

  5. Sur le nœud Pub/Sub, cliquez sur Propriétés pour configurer la source. Pour en savoir plus, consultez Source de flux continu Pub/Sub.

Prise en charge d'une seule source Pub/Sub sans plug-ins Windower

La version 6.9.1 de Cloud Data Fusion est compatible avec les pipelines en temps réel comportant une seule source de flux Pub/Sub et aucun plug-in Windower.

  • La source de flux Pub/Sub est compatible et les données sont traitées au moins une fois. L'activation du checkpointing Spark n'est pas obligatoire.
  • La source de flux Pub/Sub crée un instantané Pub/Sub au début de chaque lot et le supprime à la fin de chaque lot.
  • La création d'instantanés Pub/Sub entraîne des frais. Pour en savoir plus, consultez les tarifs de Pub/Sub.
  • Vous pouvez surveiller la création d'instantanés dans Cloud Audit Logs.

Mettre à niveau un pipeline avec une source de données par flux Pub/Sub

Cloud Data Fusion est compatible avec les mises à niveau directes des applications pour les pipelines de flux de données avec une source de flux Pub/Sub créée dans la version 6.9.1 ou ultérieure.

Cloud Data Fusion n'est pas compatible avec les mises à niveau des pipelines de données avec une source de flux Pub/Sub dans la version 6.9.0 ou antérieure. À la place, mettez à niveau ces pipelines vers la version 6.9.1 :

  1. Arrêtez de publier les données dans le sujet lorsque la mise à niveau de l'instance est prévue.
  2. Attendez que le pipeline ait fini de traiter les données publiées.
  3. Une fois les données entièrement traitées, arrêtez le pipeline.
  4. Mettez à niveau l'instance.
  5. Dupliquez le pipeline existant et mettez à jour les plug-ins vers les dernières versions.
  6. Déployez le pipeline.
  7. Exécutez le nouveau pipeline pour lire les données.

    La nouvelle version utilise automatiquement les instantanés au lieu du checkpointing Spark.

  8. Supprimez l'ancien pipeline.

Étapes suivantes