Cloud Data Fusion supporta le origini Pub/Sub nelle pipeline di dati in streaming.
Prima di iniziare
Ruoli e autorizzazioni
Per ottenere le autorizzazioni necessarie per leggere da un'origine di flusso Pub/Sub,
chiedi all'amministratore di concederti
Ruolo IAM dell'editor Pub/Sub (roles/pubsub.editor
) nell'account di servizio utilizzato per accedere alla sottoscrizione Pub/Sub.
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Questo ruolo predefinito contiene le autorizzazioni necessarie per leggere da un'origine di flusso Pub/Sub. Per vedere le autorizzazioni esatte obbligatorie, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per leggere da un'origine di flusso Pub/Sub sono necessarie le seguenti autorizzazioni:
-
pubsub.snapshots.create
-
pubsub.snapshots.delete
-
pubsub.snapshots.seek
-
pubsub.subscriptions.consume
-
pubsub.topics.attachSubscription
Potresti anche riuscire a ottenere queste autorizzazioni con ruoli personalizzati altri ruoli predefiniti.
Devi concedere il ruolo all'account di servizio specificato nelle proprietà del plug-in per accedere a Pub/Sub. Se non viene specificato, concedi la classe per l'account di servizio Dataproc.
Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestisci accesso.
Aggiungi un'origine Pub/Sub alla pipeline di dati in modalità flusso
Vai all'istanza:
Nella console Google Cloud, vai alla pagina di Cloud Data Fusion.
Per aprire l'istanza in Cloud Data Fusion Studio: Fai clic su Istanze e poi su Visualizza istanza.
Nell'interfaccia web di Cloud Data Fusion, fai clic su Studio.
Seleziona Pipeline di dati - In tempo reale.
Nel menu Origine, seleziona Pub/Sub. Nella pipeline viene visualizzato un nodo di origine streaming Pub/Sub.
Nel nodo Pub/Sub, fai clic su Proprietà per configurare la fonte. Per ulteriori informazioni, consulta Origine streaming Pub/Sub.
Supporto per una singola origine Pub/Sub senza plug-in Windower
Cloud Data Fusion versione 6.9.1 supporta le pipeline in tempo reale con un Origine in modalità flusso Pub/Sub e nessun plug-in Windower.
- L'origine in modalità flusso Pub/Sub ha il supporto integrato e i dati elaborati almeno una volta. L'abilitazione del checkpoint Spark non è obbligatorio.
- L'origine streaming Pub/Sub crea un istantanea Pub/Sub all'inizio di ogni batch e la rimuove alla fine di ogni batch.
- La creazione di snapshot Pub/Sub ha un costo associato. Per ulteriori informazioni, consulta la sezione Prezzi di Pub/Sub.
- Puoi monitorare la creazione di snapshot Audit log di Cloud.
Esegui l'upgrade di una pipeline con un'origine in modalità flusso Pub/Sub
Cloud Data Fusion supporta gli upgrade diretti delle applicazioni per le pipeline di streaming con un'origine di streaming Pub/Sub creata in 6.9.1 o versioni successive.
Cloud Data Fusion non supporta gli upgrade per le pipeline di dati con un Origine del flusso di dati Pub/Sub nella versione 6.9.0 o precedenti. Invece, eseguire l'upgrade di queste pipeline alla versione 6.9.1:
- Interrompi la pubblicazione dei dati nell'argomento quando è pianificato l'upgrade dell'istanza.
- Attendi che la pipeline completi l'elaborazione dei dati pubblicati.
- Al termine dell'elaborazione dei dati, arresta la pipeline.
- Esegui l'upgrade dell'istanza.
- Duplica la pipeline esistente ed esegui l'aggiornamento ai plug-in più recenti.
- Eseguire il deployment della pipeline.
Esegui la nuova pipeline per leggere i dati.
La nuova versione utilizza automaticamente lo snapshot anziché il checkpoint Spark.
Elimina la pipeline precedente.
Passaggi successivi
- Fai riferimento al documento sull'origine di flusso Pub/Sub CDAP.