Cloud Data Fusion supporta le origini Pub/Sub nelle pipeline di dati in modalità flusso.
Prima di iniziare
Ruoli e autorizzazioni
Per ottenere le autorizzazioni necessarie per leggere da un'origine di flussi di dati Pub/Sub,
chiedi all'amministratore di concederti il ruolo IAM
Editor Pub/Sub (roles/pubsub.editor
) per l'account di servizio utilizzato per accedere alla sottoscrizione Pub/Sub.
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.
Questo ruolo predefinito contiene le autorizzazioni necessarie per leggere da un'origine di flussi di dati Pub/Sub. Per visualizzare le autorizzazioni necessarie, espandi la sezione Autorizzazioni richieste:
Autorizzazioni obbligatorie
Per leggere da un'origine di flussi di dati Pub/Sub sono necessarie le seguenti autorizzazioni:
-
pubsub.snapshots.create
-
pubsub.snapshots.delete
-
pubsub.snapshots.seek
-
pubsub.subscriptions.consume
-
pubsub.topics.attachSubscription
Potresti anche essere in grado di ottenere queste autorizzazioni con i ruoli personalizzati o altri ruoli predefiniti.
Concedi il ruolo all'account di servizio specificato nelle proprietà del plug-in per accedere a Pub/Sub. Se non è specificato, concedi il ruolo nell'account di servizio Dataproc.
Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso.
Aggiungi un'origine Pub/Sub alla pipeline di dati in modalità flusso
Vai all'istanza:
Nella console Google Cloud, vai alla pagina di Cloud Data Fusion.
Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.
Nell'interfaccia web di Cloud Data Fusion, fai clic su Studio.
Seleziona Pipeline di dati - In tempo reale.
Nel menu Origine, seleziona Pub/Sub. Nella pipeline viene visualizzato un nodo di origine dei flussi di dati Pub/Sub.
Sul nodo Pub/Sub, fai clic su Proprietà per configurare l'origine. Per maggiori informazioni, consulta Origine streaming Pub/Sub.
Supporto per una singola origine Pub/Sub senza plug-in Windower
Cloud Data Fusion versione 6.9.1 supporta pipeline in tempo reale con una singola origine di inserimento di flussi Pub/Sub e nessun plug-in di Windower.
- L'origine di inserimento di flussi di Pub/Sub dispone di supporto integrato e i dati vengono elaborati almeno una volta. L'abilitazione del checkpoint di Spark non è obbligatoria.
- L'origine di flussi di dati Pub/Sub crea uno snapshot Pub/Sub all'inizio di ogni batch e lo rimuove alla fine di ogni batch.
- La creazione di snapshot Pub/Sub ha un costo associato. Per ulteriori informazioni, consulta la sezione Prezzi di Pub/Sub.
- Puoi monitorare la creazione degli snapshot in Cloud Audit Logs.
Upgrade di una pipeline con un'origine di inserimento di flussi Pub/Sub
Cloud Data Fusion supporta gli upgrade diretti delle applicazioni per le pipeline in modalità flusso con un'origine di inserimento di flussi Pub/Sub creata in 6.9.1 o versioni successive.
Cloud Data Fusion non supporta gli upgrade per le pipeline di dati con un'origine di inserimento di flussi Pub/Sub nella versione 6.9.0 o precedenti. Esegui invece l'upgrade di queste pipeline alla versione 6.9.1:
- Interrompi la pubblicazione dei dati nell'argomento quando è pianificato l'upgrade dell'istanza.
- Attendi che la pipeline completi l'elaborazione dei dati pubblicati.
- Al termine dell'elaborazione dei dati, arresta la pipeline.
- Esegui l'upgrade dell'istanza.
- Duplica la pipeline esistente ed esegui l'aggiornamento ai plug-in più recenti.
- Eseguire il deployment della pipeline.
Esegui la nuova pipeline per leggere i dati.
La nuova versione utilizza automaticamente gli snapshot anziché i checkpoint di Spark.
Elimina la pipeline precedente.
Passaggi successivi
- Fai riferimento all'origine di streaming Pub/Sub CDAP.