Leggere da un'origine di streaming Pub/Sub

Cloud Data Fusion supporta le origini Pub/Sub nelle pipeline di dati di streaming.

Prima di iniziare

Ruoli e autorizzazioni

Per ottenere le autorizzazioni necessarie per leggere da un'origine di streaming Pub/Sub, chiedi all'amministratore di concederti il ruolo IAM Pub/Sub Editor (roles/pubsub.editor) nell'account di servizio utilizzato per accedere alla sottoscrizione Pub/Sub. Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questo ruolo predefinito contiene le autorizzazioni necessarie per leggere da un'origine di streaming Pub/Sub. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per leggere da un'origine di streaming Pub/Sub sono necessarie le seguenti autorizzazioni:

  • pubsub.snapshots.create
  • pubsub.snapshots.delete
  • pubsub.snapshots.seek
  • pubsub.subscriptions.consume
  • pubsub.topics.attachSubscription

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Concedi il ruolo al account di servizio specificato nelle proprietà del plug-in per l'accesso a Pub/Sub. Se non ne viene specificato nessuno, concedi il ruolo al account di servizio Dataproc.

Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso.

Aggiungere un'origine Pub/Sub alla pipeline di dati in streaming

  1. Vai all'istanza:

    1. Nella Google Cloud console, vai alla pagina Cloud Data Fusion.

    2. Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.

      Vai a Istanze

  2. Nell'interfaccia web di Cloud Data Fusion, fai clic su Studio.

  3. Seleziona Data Pipeline - Realtime.

  4. Nel menu Origine, seleziona Pub/Sub. Nella pipeline viene visualizzato un nodo di origine streaming Pub/Sub.

  5. Nel nodo Pub/Sub, fai clic su Proprietà per configurare la sorgente. Per ulteriori informazioni, consulta Origine di streaming Pub/Sub.

Supporto di una singola origine Pub/Sub senza plug-in Windower

Cloud Data Fusion versione 6.9.1 supporta le pipeline in tempo reale con una singola origine di streaming Pub/Sub e nessun plug-in Windower.

  • L'origine di streaming Pub/Sub ha un supporto integrato e i dati vengono elaborati almeno una volta. L'attivazione del checkpoint Spark non è obbligatoria.
  • L'origine di streaming Pub/Sub crea uno snapshot Pub/Sub all'inizio di ogni batch e lo rimuove alla fine di ogni batch.
  • La creazione di snapshot Pub/Sub ha un costo associato. Per ulteriori informazioni, consulta la pagina Prezzi di Pub/Sub.
  • Puoi monitorare la creazione di snapshot in Cloud Audit Logs.

Eseguire l'upgrade di una pipeline con un'origine di streaming Pub/Sub

Cloud Data Fusion supporta gli upgrade diretti delle applicazioni per le pipeline di streaming con un'origine di streaming Pub/Sub creata nella versione 6.9.1 o successive.

Cloud Data Fusion non supporta gli upgrade per le pipeline di dati con un'origine di streaming Pub/Sub nella versione 6.9.0 o precedenti. Esegui invece l'upgrade di queste pipeline alla versione 6.9.1:

  1. Interrompi la pubblicazione dei dati nell'argomento quando è pianificato l'upgrade dell'istanza.
  2. Attendi che la pipeline termini l'elaborazione dei dati pubblicati.
  3. Una volta elaborati completamente i dati, arresta la pipeline.
  4. Esegui l'upgrade dell'istanza.
  5. Duplica la pipeline esistente e aggiornala con i plug-in più recenti.
  6. Esegui il deployment della pipeline.
  7. Esegui la nuova pipeline per leggere i dati.

    La nuova versione utilizza automaticamente lo snapshot anziché il checkpointing Spark.

  8. Elimina la vecchia pipeline.

Passaggi successivi