Lettura da un'origine di flussi di dati Pub/Sub

Cloud Data Fusion supporta le origini Pub/Sub nelle pipeline di dati in modalità flusso.

Prima di iniziare

Ruoli e autorizzazioni

Per ottenere le autorizzazioni necessarie per leggere da un'origine di flussi di dati Pub/Sub, chiedi all'amministratore di concederti il ruolo IAM Editor Pub/Sub (roles/pubsub.editor) per l'account di servizio utilizzato per accedere alla sottoscrizione Pub/Sub. Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.

Questo ruolo predefinito contiene le autorizzazioni necessarie per leggere da un'origine di flussi di dati Pub/Sub. Per visualizzare le autorizzazioni necessarie, espandi la sezione Autorizzazioni richieste:

Autorizzazioni obbligatorie

Per leggere da un'origine di flussi di dati Pub/Sub sono necessarie le seguenti autorizzazioni:

  • pubsub.snapshots.create
  • pubsub.snapshots.delete
  • pubsub.snapshots.seek
  • pubsub.subscriptions.consume
  • pubsub.topics.attachSubscription

Potresti anche essere in grado di ottenere queste autorizzazioni con i ruoli personalizzati o altri ruoli predefiniti.

Concedi il ruolo all'account di servizio specificato nelle proprietà del plug-in per accedere a Pub/Sub. Se non è specificato, concedi il ruolo nell'account di servizio Dataproc.

Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso.

Aggiungi un'origine Pub/Sub alla pipeline di dati in modalità flusso

  1. Vai all'istanza:

    1. Nella console Google Cloud, vai alla pagina di Cloud Data Fusion.

    2. Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.

      Vai a Istanze

  2. Nell'interfaccia web di Cloud Data Fusion, fai clic su Studio.

  3. Seleziona Pipeline di dati - In tempo reale.

  4. Nel menu Origine, seleziona Pub/Sub. Nella pipeline viene visualizzato un nodo di origine dei flussi di dati Pub/Sub.

  5. Sul nodo Pub/Sub, fai clic su Proprietà per configurare l'origine. Per maggiori informazioni, consulta Origine streaming Pub/Sub.

Supporto per una singola origine Pub/Sub senza plug-in Windower

Cloud Data Fusion versione 6.9.1 supporta pipeline in tempo reale con una singola origine di inserimento di flussi Pub/Sub e nessun plug-in di Windower.

  • L'origine di inserimento di flussi di Pub/Sub dispone di supporto integrato e i dati vengono elaborati almeno una volta. L'abilitazione del checkpoint di Spark non è obbligatoria.
  • L'origine di flussi di dati Pub/Sub crea uno snapshot Pub/Sub all'inizio di ogni batch e lo rimuove alla fine di ogni batch.
  • La creazione di snapshot Pub/Sub ha un costo associato. Per ulteriori informazioni, consulta la sezione Prezzi di Pub/Sub.
  • Puoi monitorare la creazione degli snapshot in Cloud Audit Logs.

Upgrade di una pipeline con un'origine di inserimento di flussi Pub/Sub

Cloud Data Fusion supporta gli upgrade diretti delle applicazioni per le pipeline in modalità flusso con un'origine di inserimento di flussi Pub/Sub creata in 6.9.1 o versioni successive.

Cloud Data Fusion non supporta gli upgrade per le pipeline di dati con un'origine di inserimento di flussi Pub/Sub nella versione 6.9.0 o precedenti. Esegui invece l'upgrade di queste pipeline alla versione 6.9.1:

  1. Interrompi la pubblicazione dei dati nell'argomento quando è pianificato l'upgrade dell'istanza.
  2. Attendi che la pipeline completi l'elaborazione dei dati pubblicati.
  3. Al termine dell'elaborazione dei dati, arresta la pipeline.
  4. Esegui l'upgrade dell'istanza.
  5. Duplica la pipeline esistente ed esegui l'aggiornamento ai plug-in più recenti.
  6. Eseguire il deployment della pipeline.
  7. Esegui la nuova pipeline per leggere i dati.

    La nuova versione utilizza automaticamente gli snapshot anziché i checkpoint di Spark.

  8. Elimina la pipeline precedente.

Passaggi successivi