O Cloud Data Fusion suporta origens do Pub/Sub em pipelines de dados de streaming.
Antes de começar
Funções e permissões
Para receber as autorizações de que
precisa para ler a partir de uma origem de streaming do Pub/Sub,
peça ao seu administrador para lhe conceder a
função do IAM Editor do Pub/Sub (roles/pubsub.editor
)
na conta de serviço usada para aceder à subscrição do Pub/Sub.
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Esta função predefinida contém as autorizações necessárias para ler a partir de uma origem de streaming do Pub/Sub. Para ver as autorizações exatas que são necessárias, expanda a secção Autorizações necessárias:
Autorizações necessárias
São necessárias as seguintes autorizações para ler a partir de uma origem de streaming do Pub/Sub:
-
pubsub.snapshots.create
-
pubsub.snapshots.delete
-
pubsub.snapshots.seek
-
pubsub.subscriptions.consume
-
pubsub.topics.attachSubscription
Também pode conseguir estas autorizações com funções personalizadas ou outras funções predefinidas.
Concede a função na conta de serviço especificada nas propriedades do plug-in para aceder ao Pub/Sub. Se não for especificado nenhum, conceda a função na conta de serviço do Dataproc.
Para mais informações sobre a concessão de funções, consulte o artigo Gerir acesso.
Adicione uma origem do Pub/Sub à sua data pipeline de streaming
Aceda à sua instância:
Na Google Cloud consola, aceda à página do Cloud Data Fusion.
Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e, de seguida, em Ver instância.
Na interface Web do Cloud Data Fusion, clique em Studio.
Selecione Data Pipeline - Realtime.
No menu Origem, selecione Pub/Sub. É apresentado um nó de origem de streaming do Pub/Sub na pipeline.
No nó do Pub/Sub, clique em Propriedades para configurar a origem. Para mais informações, consulte o artigo Origem de streaming do Pub/Sub.
Compatibilidade com uma única origem do Pub/Sub sem plug-ins Windower
A versão 6.9.1 do Cloud Data Fusion suporta pipelines em tempo real com uma única origem de streaming do Pub/Sub e sem plug-ins do Windower.
- A origem de streaming do Pub/Sub tem suporte integrado e os dados são processados, pelo menos, uma vez. Não é necessário ativar a criação de pontos de verificação do Spark.
- A origem de streaming do Pub/Sub cria uma imagem instantânea do Pub/Sub no início de cada lote e remove-a no final de cada lote.
- A criação de instantâneos do Pub/Sub tem um custo associado. Para mais informações, consulte os preços do Pub/Sub.
- Pode monitorizar a criação de instantâneos nos registos de auditoria do Cloud.
Atualize um pipeline com uma origem de streaming do Pub/Sub
O Cloud Data Fusion suporta atualizações diretas de aplicações para pipelines de streaming com uma origem de streaming do Pub/Sub criada na versão 6.9.1 ou posterior.
O Cloud Data Fusion não suporta atualizações para pipelines de dados com uma origem de streaming do Pub/Sub na versão 6.9.0 ou anterior. Em alternativa, atualize esses pipelines para a versão 6.9.1:
- Pare de publicar os dados no tópico quando a atualização da instância estiver planeada.
- Aguarde que o pipeline termine o processamento dos dados publicados.
- Depois de os dados serem processados completamente, pare o pipeline.
- Atualize a instância.
- Duplicar o pipeline existente e atualizar para os plugins mais recentes.
- Implemente a conduta.
Execute o novo pipeline para ler dados.
A nova versão usa automaticamente a captura instantânea em vez da criação de pontos de verificação do Spark.
Elimine o pipeline antigo.
O que se segue?
- Consulte a origem de streaming do Pub/Sub do CDAP.