Orquestrar pipelines

Nesta página, explicamos a orquestração de pipelines com o Cloud Composer e gatilhos. O Cloud Data Fusion recomenda usar o Cloud Composer para orquestrar pipelines. Se você precisar de uma maneira mais simples de gerenciar a orquestração, use gatilhos.

Composer

Orquestre pipelines com o Cloud Composer

Como orquestrar a execução de pipelines no Cloud Data Fusion com O Cloud Composer oferece os seguintes benefícios:

  • Gerenciamento centralizado de fluxo de trabalho: gerencie de maneira uniforme a execução do vários pipelines do Cloud Data Fusion.
  • Gerenciamento de dependências: para garantir a ordem de execução adequada, defina dependências entre os pipelines.
  • Monitoramento e alertas:o Cloud Composer fornece e alertas de falhas.
  • Integração com outros serviços:o Cloud Composer permite orquestrar fluxos de trabalho que abrangem o Cloud Data Fusion e outros serviços do Google Cloud.

Para orquestrar pipelines do Cloud Data Fusion usando Cloud Composer, siga este processo:

  1. Configure o ambiente do Cloud Composer.

    • Criar um ambiente do Cloud Composer. Se você não tiver Provisione o ambiente no seu projeto do Google Cloud. Esse ambiente é seu espaço de trabalho de orquestração.
    • Conceda as permissões. Verifique se o Cloud Composer conta de serviço tem as permissões necessárias para acessar Cloud Data Fusion (como permissão para iniciar, parar e listar pipelines).
  2. Definir gráficos acíclicos dirigidos (DAG) para orquestração

    • Crie um DAG: no Cloud Composer, crie um DAG que define o fluxo de trabalho de orquestração do seu Cloud Data Fusion pipelines de dados.
    • Operadores do Cloud Data Fusion: use o operadores do Cloud Data Fusion no DAG. Esses operadores permitem interagir programaticamente com o Cloud Data Fusion.

Operadores do Cloud Data Fusion

A orquestração de pipelines do Cloud Data Fusion tem os seguintes operadores:

CloudDataFusionStartPipelineOperator

Aciona a execução de um pipeline do Cloud Data Fusion pelo ID. Ela tem os seguintes parâmetros:

  • ID do pipeline
  • Local (região do Google Cloud)
  • Namespace do pipeline
  • Argumentos do ambiente de execução (opcional)
  • Aguardar a conclusão (opcional)
  • Tempo limite (opcional)
CloudDataFusionStopPipelineOperator

Permite interromper um pipeline do Cloud Data Fusion em execução.

CloudDataFusionDeletePipelineOperator

Exclui um pipeline do Cloud Data Fusion.

Criar o fluxo de trabalho do DAG

Ao criar o fluxo de trabalho do DAG, considere o seguinte:

  • Como definir dependências:use a estrutura do DAG para definir dependências. entre as tarefas. Por exemplo, você pode ter uma tarefa que aguarda pipeline em um namespace para ser concluído com sucesso antes de acionar pipeline em um namespace diferente.
  • Programação:programe o DAG para ser executado em intervalos específicos, como diária ou a cada hora, ou configure-o para ser acionado manualmente.

Para mais informações, consulte a Visão geral do Cloud Composer.

Gatilhos

Orquestrar pipelines com gatilhos

Com os gatilhos do Cloud Data Fusion, é possível executar automaticamente pipeline após a conclusão (sucesso, falha ou qualquer condição especificada) de um ou mais pipelines upstream.

Os gatilhos são úteis para as seguintes tarefas:

  • Limpar seus dados uma vez e, em seguida, disponibilizá-los a vários pipelines de downstream para consumo.
  • Como compartilhar informações, como argumentos de ambiente de execução e plug-in entre os pipelines. Essa tarefa é chamada de payload do Terraform.
  • Com um conjunto de pipelines dinâmicos executados usando dados por hora, dia, semana ou mês, em vez de um pipeline estático que precisa ser atualizado para cada execução.

Por exemplo, você tem um conjunto de dados que contém todas as informações sobre seus fretes da empresa. Com base nesses dados, você quer responder a várias perguntas perguntas. Para isso, crie um pipeline que limpe os dados brutos sobre remessas, chamada Shipments Data Cleaning (Limpeza de dados de remessas). Depois, crie um segundo pipeline, Delayed Shipments USA, que lê os dados limpos e encontra as remessas dentro dos EUA que foram atrasadas por mais do que o especificado o limite mínimo. O pipeline Delayed Shipments USA poderá ser acionado assim que o pipeline upstream Shipments Data Cleaning foi concluído com sucesso.

Além disso, como o pipeline downstream consome a saída do pipeline upstream, especifique que, quando o pipeline downstream for executado usando o gatilho, ele também recebe o diretório de entrada para ler (que é o diretório em que o pipeline upstream gerou a saída). Isso é chamado de configuração do payload de transmissão, que você define com argumentos de execução. Ele permite ter um conjunto de pipelines dinâmicos executar usando os dados de hora, dia, semana ou mês (não um pipeline estático, que precisa ser atualizado a cada execução).

Para orquestrar pipelines com gatilhos, siga este processo:

  1. Criar pipelines upstream e downstream.

    • No Studio do Cloud Data Fusion, crie e implante a pipelines que formam a cadeia de orquestração.
    • Considere qual pipeline ativará o próximo pipeline (downstream) em seu fluxo de trabalho.
  2. Opcional: transmitir argumentos de ambiente de execução para pipelines upstream.

  3. Criar um gatilho de entrada no pipeline downstream.

    • No Studio do Cloud Data Fusion, acesse a página Lista. Em Na guia Implantado, clique no nome do pipeline downstream. O A visualização de implantação desse pipeline é exibida.
    • No lado central esquerdo da página, clique em Acionadores de entrada. Uma lista de pipelines disponíveis é exibida.
    • Clique no pipeline upstream. Selecione uma ou mais das opções upstream estados de conclusão do pipeline (Êxito, Falha ou Paradas) como condição para a execução do pipeline downstream.
    • Se você quiser que o pipeline upstream compartilhe informações (chamado configuração de payload) com o pipeline downstream, clique em Configuração do acionador e siga as etapas para transmitir a configuração do payload como argumentos de ambiente de execução. Caso contrário, clique em Ativar gatilho.
  4. Testar o gatilho.

    • Inicie uma execução do pipeline upstream.
    • Se o gatilho estiver configurado corretamente, o pipeline downstream são executados automaticamente após a conclusão dos pipelines upstream, com base na condição configurada.

Transmitir a configuração do payload como argumentos de ambiente de execução

A configuração do payload permite o compartilhamento de informações do upstream para o pipeline downstream. Essas informações podem ser, por exemplo, no diretório de saída, no formato dos dados ou no dia em que o pipeline foi executado. Isso informações são então usadas pelo pipeline downstream para decisões como determinar o conjunto de dados certo para ler.

Para transmitir informações do pipeline upstream para o downstream, defina os argumentos de ambiente de execução do pipeline downstream com os valores de argumentos de tempo de execução ou a configuração de qualquer plug-in da pipeline upstream.

Sempre que o pipeline downstream é acionado e executado, o payload é definida usando os argumentos do tempo de execução da execução específica o pipeline upstream que acionou o pipeline downstream.

Para transmitir a configuração de payload como argumentos de ambiente de execução, siga estas etapas:

  1. Continuando de onde você parou em Como criar um gatilho de entrada, depois de clicar em Configuração do acionador, todos os argumentos do ambiente de execução definido anteriormente para o pipeline upstream será exibido. Escolha o argumentos de execução para transmitir do pipeline upstream para o pipeline downstream quando o gatilho é executado.
  2. Clique na guia Configuração do plug-in para ver uma lista do que será transmitido. do pipeline upstream para o downstream quando estiver acionada.
  3. Clique em Configurar e ativar gatilho.