Orquestrar pipelines

Nesta página, explicamos a orquestração de pipelines com o Cloud Composer e os gatilhos. O Cloud Data Fusion recomenda usar o Cloud Composer para orquestrar pipelines. Se você precisar de uma maneira mais simples de gerenciar a orquestração, use gatilhos.

Composer

Orquestre pipelines com o Cloud Composer

Como orquestrar a execução de pipelines no Cloud Data Fusion com O Cloud Composer oferece os seguintes benefícios:

  • Gerenciamento centralizado de fluxos de trabalho: gerencie de maneira uniforme a execução de vários pipelines do Cloud Data Fusion.
  • Gerenciamento de dependências: para garantir uma ordem de execução adequada, defina dependências entre os pipelines.
  • Monitoramento e alertas: o Cloud Composer oferece recursos de monitoramento e alertas para falhas.
  • Integração com outros serviços:o Cloud Composer permite orquestrar fluxos de trabalho que abrangem o Cloud Data Fusion e outros serviços do Google Cloud.

Para orquestrar pipelines do Cloud Data Fusion usando o Cloud Composer, siga este processo:

  1. Configure o ambiente do Cloud Composer.

    • Crie um ambiente do Cloud Composer. Se você não tiver Provisione o ambiente no seu projeto do Google Cloud. Esse ambiente é seu espaço de trabalho de orquestração.
    • Conceda as permissões. Verifique se o Cloud Composer conta de serviço tem as permissões necessárias para acessar Cloud Data Fusion (como permissão para iniciar, parar e listar pipelines).
  2. Definir gráficos acíclicos dirigidos (DAG) para orquestração

    • Criar um DAG: no Cloud Composer, crie um DAG que define o fluxo de trabalho de orquestração dos pipelines do Cloud Data Fusion.
    • Operadores do Cloud Data Fusion: use o operadores do Cloud Data Fusion no DAG. Esses operadores permitem interagir programaticamente com o Cloud Data Fusion.

Operadores do Cloud Data Fusion

A orquestração de pipeline do Cloud Data Fusion tem os seguintes operadores:

CloudDataFusionStartPipelineOperator

Aciona a execução de um pipeline do Cloud Data Fusion pelo ID. Ele tem os seguintes parâmetros:

  • ID do pipeline
  • Local (região do Google Cloud)
  • Namespace do pipeline
  • Argumentos do ambiente de execução (opcional)
  • Aguarde a conclusão (opcional)
  • Tempo limite (opcional)
CloudDataFusionStopPipelineOperator

Permite interromper um pipeline do Cloud Data Fusion em execução.

CloudDataFusionDeletePipelineOperator

Exclui um pipeline do Cloud Data Fusion.

Criar o fluxo de trabalho do DAG

Ao criar o fluxo de trabalho do DAG, considere o seguinte:

  • Definição de dependências: use a estrutura DAG para definir dependências entre tarefas. Por exemplo, você pode ter uma tarefa que aguarda pipeline em um namespace para ser concluído com sucesso antes de acionar pipeline em um namespace diferente.
  • Programação: programe a DAG para ser executada em intervalos específicos, como diariamente ou a cada hora, ou configure o acionamento manual.

Para mais informações, consulte a Visão geral do Cloud Composer.

Gatilhos

Orquestrar pipelines com acionadores

Os acionadores do Cloud Data Fusion permitem executar automaticamente um pipeline downstream após a conclusão (sucesso, falha ou qualquer condição especificada) de um ou mais pipelines upstream.

Os gatilhos são úteis para as seguintes tarefas:

  • Limpar seus dados uma vez e, em seguida, disponibilizá-los a vários pipelines de downstream para consumo.
  • Como compartilhar informações, como argumentos de ambiente de execução e plug-in entre os pipelines. Essa tarefa é chamada de configuração de payload.
  • Com um conjunto de pipelines dinâmicos executados usando dados por hora, dia, semana ou mês, em vez de um pipeline estático que precisa ser atualizado para cada execução.

Por exemplo, você tem um conjunto de dados que contém todas as informações sobre os envios da sua empresa. Com base nesses dados, você quer responder a várias perguntas perguntas. Para isso, crie um pipeline que limpe os dados brutos sobre remessas, chamada Shipments Data Cleaning (Limpeza de dados de remessas). Em seguida, crie um segundo pipeline, Delayed Shipments USA, que lê os dados limpos e encontra os envios nos EUA que atrasaram mais do que um limite especificado. O pipeline Delayed Shipments USA pode ser acionado assim que o pipeline upstream Shipments Data Cleaning for concluído.

Além disso, como o pipeline downstream consome a saída do pipeline upstream, especifique que, quando o pipeline downstream for executado usando o gatilho, ele também recebe o diretório de entrada para ler (que é o diretório em que o pipeline upstream gerou a saída). Isso é chamado de configuração do payload de transmissão, que você define com argumentos de execução. Ele permite que você tenha um conjunto de pipelines dinâmicos que são executados usando os dados da hora, do dia, da semana ou do mês, e não um pipeline estático, que precisa ser atualizado para cada execução.

Para orquestrar pipelines com gatilhos, siga este processo:

  1. Criar pipelines upstream e downstream.

    • No Studio do Cloud Data Fusion, crie e implante a pipelines que formam a cadeia de orquestração.
    • Considere qual conclusão de pipeline vai ativar o próximo pipeline (a jusante) no seu fluxo de trabalho.
  2. Opcional: transmitir argumentos de ambiente de execução para pipelines upstream.

  3. Criar um gatilho de entrada no pipeline downstream.

    • No Cloud Data Fusion Studio, acesse a página Lista. Em Na guia Implantado, clique no nome do pipeline downstream. A visualização "Implantar" desse pipeline é exibida.
    • No lado central esquerdo da página, clique em Acionadores de entrada. Uma lista de pipelines disponíveis vai aparecer.
    • Clique no pipeline upstream. Selecione uma ou mais das opções upstream estados de conclusão do pipeline (Êxito, Falha ou Paradas) como condição para a execução do pipeline downstream.
    • Se você quiser que o pipeline upstream compartilhe informações (chamado configuração do payload) com o pipeline downstream, clique Configuração do acionador e siga as etapas para transmitir a configuração do payload como argumentos de ambiente de execução. Caso contrário, clique em Ativar gatilho.
  4. Testar o gatilho.

    • Inicie uma execução do pipeline upstream.
    • Se o gatilho estiver configurado corretamente, o pipeline downstream são executados automaticamente após a conclusão dos pipelines upstream, com base na condição configurada.

Transmitir a configuração do payload como argumentos de ambiente de execução

A configuração de payload permite o compartilhamento de informações do pipeline upstream para o pipeline downstream. Essas informações podem ser, por exemplo, o diretório de saída, o formato de dados ou o dia em que o pipeline foi executado. Essas informações são usadas pelo pipeline downstream para decisões como determinar o conjunto de dados certo para ler.

Para transmitir informações do pipeline upstream para o pipeline downstream, defina os argumentos de tempo de execução do pipeline downstream com os valores dos argumentos de ambiente de execução ou a configuração de qualquer plug-in no pipeline upstream.

Sempre que o pipeline downstream é acionado e executado, o payload é definida usando os argumentos do tempo de execução da execução específica o pipeline upstream que acionou o pipeline downstream.

Para transmitir a configuração do payload como argumentos do ambiente de execução, siga estas etapas:

  1. Continue de onde você parou na seção Como criar um gatilho de entrada, depois de clicar em Configuração do gatilho, todos os argumentos de ambiente de execução que você definiu anteriormente do pipeline upstream vão aparecer. Escolha o argumentos de execução para transmitir do pipeline upstream para o pipeline downstream quando o gatilho é executado.
  2. Clique na guia Configuração do plug-in para conferir uma lista do que será transmitido do pipeline upstream para o pipeline downstream quando for acionado.
  3. Clique em Configurar e ativar gatilho.