Ler de uma origem de streaming do Pub/Sub

O Cloud Data Fusion oferece suporte a fontes do Pub/Sub em pipelines de dados de streaming.

Antes de começar

Papéis e permissões

Para receber as permissões necessárias para ler de uma origem de streaming do Pub/Sub, peça ao administrador para conceder a você o papel de editor do Pub/Sub (roles/pubsub.editor) do IAM na conta de serviço usada para acessar a assinatura do Pub/Sub. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esse papel predefinido contém as permissões necessárias para ler de uma origem de streaming do Pub/Sub. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para ler de uma origem de streaming do Pub/Sub:

  • pubsub.snapshots.create
  • pubsub.snapshots.delete
  • pubsub.snapshots.seek
  • pubsub.subscriptions.consume
  • pubsub.topics.attachSubscription

Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.

Você concede o papel na conta de serviço especificada nas propriedades do plug-in para acessar o Pub/Sub. Se nenhum for especificado, conceda o na conta de serviço do Dataproc.

Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Adicionar uma origem do Pub/Sub ao pipeline de dados de streaming

  1. Acesse sua instância:

    1. No console do Google Cloud, acesse a página do Cloud Data Fusion.

    2. Para abrir a instância no Studio do Cloud Data Fusion, Clique em Instâncias e depois em Visualizar instância.

      Acesse "Instâncias"

  2. Na interface da Web do Cloud Data Fusion, clique em Studio.

  3. Selecione Pipeline de dados: tempo real.

  4. No menu Origem, selecione Pub/Sub. Um Pub/Sub nó de origem de streaming aparece no pipeline.

  5. No nó do Pub/Sub, clique em Propriedades para configurar a origem. Para mais informações, consulte Fonte de streaming do Pub/Sub.

Suporte a uma única origem do Pub/Sub sem plug-ins do Windower

A versão 6.9.1 do Cloud Data Fusion oferece suporte a pipelines em tempo real com uma única fonte de streaming do Pub/Sub e sem plug-ins do Windower.

  • A origem de streaming do Pub/Sub tem suporte integrado, e os dados processados pelo menos uma vez. Ativar o checkpoint do Spark não é obrigatórios.
  • A origem de streaming do Pub/Sub cria um snapshot do Pub/Sub no início de cada lote e o remove no final de cada lote.
  • A criação de snapshots do Pub/Sub tem um custo associado. Para mais informações, consulte Preços do Pub/Sub.
  • É possível monitorar a criação de snapshots nos Registros de auditoria do Cloud.

Fazer upgrade de um pipeline com uma origem de streaming do Pub/Sub

O Cloud Data Fusion oferece suporte a upgrades diretos de aplicativos para pipelines de streaming com uma origem de streaming do Pub/Sub criada na 6.9.1 ou mais recente.

O Cloud Data Fusion não oferece suporte a upgrades de pipelines de dados com uma fonte de streaming do Pub/Sub na versão 6.9.0 ou anterior. Em vez disso, atualizar esses pipelines para a versão 6.9.1:

  1. Parar de publicar os dados no tópico quando o upgrade da instância estiver planejado.
  2. Aguarde o pipeline terminar de processar os dados publicados.
  3. Depois que os dados forem processados, interrompa o pipeline.
  4. Faça upgrade da instância.
  5. Duplique o pipeline atual e atualize para os plug-ins mais recentes.
  6. Implante o pipeline.
  7. Execute o novo pipeline para ler os dados.

    A nova versão usa o snapshot automaticamente em vez do checkpoint do Spark.

  8. Exclua o pipeline antigo.

A seguir