Leia a partir de uma origem de streaming do Pub/Sub

O Cloud Data Fusion suporta origens do Pub/Sub em pipelines de dados de streaming.

Antes de começar

Funções e permissões

Para receber as autorizações de que precisa para ler a partir de uma origem de streaming do Pub/Sub, peça ao seu administrador para lhe conceder a função do IAM Editor do Pub/Sub (roles/pubsub.editor) na conta de serviço usada para aceder à subscrição do Pub/Sub. Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

Esta função predefinida contém as autorizações necessárias para ler a partir de uma origem de streaming do Pub/Sub. Para ver as autorizações exatas que são necessárias, expanda a secção Autorizações necessárias:

Autorizações necessárias

São necessárias as seguintes autorizações para ler a partir de uma origem de streaming do Pub/Sub:

  • pubsub.snapshots.create
  • pubsub.snapshots.delete
  • pubsub.snapshots.seek
  • pubsub.subscriptions.consume
  • pubsub.topics.attachSubscription

Também pode conseguir estas autorizações com funções personalizadas ou outras funções predefinidas.

Concede a função na conta de serviço especificada nas propriedades do plug-in para aceder ao Pub/Sub. Se não for especificado nenhum, conceda a função na conta de serviço do Dataproc.

Para mais informações sobre a concessão de funções, consulte o artigo Gerir acesso.

Adicione uma origem do Pub/Sub à sua data pipeline de streaming

  1. Aceda à sua instância:

    1. Na Google Cloud consola, aceda à página do Cloud Data Fusion.

    2. Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e, de seguida, em Ver instância.

      Aceda a Instâncias

  2. Na interface Web do Cloud Data Fusion, clique em Studio.

  3. Selecione Data Pipeline - Realtime.

  4. No menu Origem, selecione Pub/Sub. É apresentado um nó de origem de streaming do Pub/Sub na pipeline.

  5. No nó do Pub/Sub, clique em Propriedades para configurar a origem. Para mais informações, consulte o artigo Origem de streaming do Pub/Sub.

Compatibilidade com uma única origem do Pub/Sub sem plug-ins Windower

A versão 6.9.1 do Cloud Data Fusion suporta pipelines em tempo real com uma única origem de streaming do Pub/Sub e sem plug-ins do Windower.

  • A origem de streaming do Pub/Sub tem suporte integrado e os dados são processados, pelo menos, uma vez. Não é necessário ativar a criação de pontos de verificação do Spark.
  • A origem de streaming do Pub/Sub cria uma imagem instantânea do Pub/Sub no início de cada lote e remove-a no final de cada lote.
  • A criação de instantâneos do Pub/Sub tem um custo associado. Para mais informações, consulte os preços do Pub/Sub.
  • Pode monitorizar a criação de instantâneos nos registos de auditoria do Cloud.

Atualize um pipeline com uma origem de streaming do Pub/Sub

O Cloud Data Fusion suporta atualizações diretas de aplicações para pipelines de streaming com uma origem de streaming do Pub/Sub criada na versão 6.9.1 ou posterior.

O Cloud Data Fusion não suporta atualizações para pipelines de dados com uma origem de streaming do Pub/Sub na versão 6.9.0 ou anterior. Em alternativa, atualize esses pipelines para a versão 6.9.1:

  1. Pare de publicar os dados no tópico quando a atualização da instância estiver planeada.
  2. Aguarde que o pipeline termine o processamento dos dados publicados.
  3. Depois de os dados serem processados completamente, pare o pipeline.
  4. Atualize a instância.
  5. Duplicar o pipeline existente e atualizar para os plugins mais recentes.
  6. Implemente a conduta.
  7. Execute o novo pipeline para ler dados.

    A nova versão usa automaticamente a captura instantânea em vez da criação de pontos de verificação do Spark.

  8. Elimine o pipeline antigo.

O que se segue?