Leggere da un'origine di streaming Pub/Sub

Cloud Data Fusion supporta le origini Pub/Sub nelle pipeline di dati in streaming.

Prima di iniziare

Ruoli e autorizzazioni

Per ottenere le autorizzazioni necessarie per leggere da un'origine di flusso Pub/Sub, chiedi all'amministratore di concederti Ruolo IAM dell'editor Pub/Sub (roles/pubsub.editor) nell'account di servizio utilizzato per accedere alla sottoscrizione Pub/Sub. Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Questo ruolo predefinito contiene le autorizzazioni necessarie per leggere da un'origine di flusso Pub/Sub. Per vedere le autorizzazioni esatte obbligatorie, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per leggere da un'origine di flusso Pub/Sub sono necessarie le seguenti autorizzazioni:

  • pubsub.snapshots.create
  • pubsub.snapshots.delete
  • pubsub.snapshots.seek
  • pubsub.subscriptions.consume
  • pubsub.topics.attachSubscription

Potresti anche riuscire a ottenere queste autorizzazioni con ruoli personalizzati altri ruoli predefiniti.

Devi concedere il ruolo all'account di servizio specificato nelle proprietà del plug-in per accedere a Pub/Sub. Se non viene specificato, concedi la classe per l'account di servizio Dataproc.

Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestisci accesso.

Aggiungi un'origine Pub/Sub alla pipeline di dati in modalità flusso

  1. Vai all'istanza:

    1. Nella console Google Cloud, vai alla pagina di Cloud Data Fusion.

    2. Per aprire l'istanza in Cloud Data Fusion Studio: Fai clic su Istanze e poi su Visualizza istanza.

      Vai a Istanze

  2. Nell'interfaccia web di Cloud Data Fusion, fai clic su Studio.

  3. Seleziona Pipeline di dati - In tempo reale.

  4. Nel menu Origine, seleziona Pub/Sub. Nella pipeline viene visualizzato un nodo di origine streaming Pub/Sub.

  5. Nel nodo Pub/Sub, fai clic su Proprietà per configurare la fonte. Per ulteriori informazioni, consulta Origine streaming Pub/Sub.

Supporto per una singola origine Pub/Sub senza plug-in Windower

Cloud Data Fusion versione 6.9.1 supporta le pipeline in tempo reale con un Origine in modalità flusso Pub/Sub e nessun plug-in Windower.

  • L'origine in modalità flusso Pub/Sub ha il supporto integrato e i dati elaborati almeno una volta. L'abilitazione del checkpoint Spark non è obbligatorio.
  • L'origine streaming Pub/Sub crea un istantanea Pub/Sub all'inizio di ogni batch e la rimuove alla fine di ogni batch.
  • La creazione di snapshot Pub/Sub ha un costo associato. Per ulteriori informazioni, consulta la sezione Prezzi di Pub/Sub.
  • Puoi monitorare la creazione di snapshot Audit log di Cloud.

Esegui l'upgrade di una pipeline con un'origine in modalità flusso Pub/Sub

Cloud Data Fusion supporta gli upgrade diretti delle applicazioni per le pipeline di streaming con un'origine di streaming Pub/Sub creata in 6.9.1 o versioni successive.

Cloud Data Fusion non supporta gli upgrade per le pipeline di dati con un Origine del flusso di dati Pub/Sub nella versione 6.9.0 o precedenti. Invece, eseguire l'upgrade di queste pipeline alla versione 6.9.1:

  1. Interrompi la pubblicazione dei dati nell'argomento quando è pianificato l'upgrade dell'istanza.
  2. Attendi che la pipeline completi l'elaborazione dei dati pubblicati.
  3. Al termine dell'elaborazione dei dati, arresta la pipeline.
  4. Esegui l'upgrade dell'istanza.
  5. Duplica la pipeline esistente ed esegui l'aggiornamento ai plug-in più recenti.
  6. Eseguire il deployment della pipeline.
  7. Esegui la nuova pipeline per leggere i dati.

    La nuova versione utilizza automaticamente lo snapshot anziché il checkpoint Spark.

  8. Elimina la pipeline precedente.

Passaggi successivi