Implantar e executar pipelines

Esta página descreve os conceitos básicos sobre a implantação e a execução de pipelines no Cloud Data Fusion.

Implantar canais

Depois de concluir o design e a depuração de um pipeline de dados e ficar satisfeito com os dados mostrados na visualização, você estará pronto para implantar o pipeline.

Quando você implanta o pipeline, o Cloud Data Fusion Studio cria o fluxo de trabalho e os jobs do Apache Spark correspondentes em segundo plano.

Executar pipelines

Depois de implantar um pipeline, é possível executá-lo das seguintes maneiras:

  • Para executar um pipeline sob demanda, abra um pipeline implantado e clique em Executar.
  • Para programar a execução do pipeline em um determinado horário, abra um pipeline implantado e clique em Programar.
  • Para acionar o pipeline com base na conclusão de outro, abra um pipeline implantado e clique em Gatilhos de entrada.

O Pipeline Studio salva o histórico de um pipeline sempre que ele é executado. Você pode alternar entre diferentes versões do ambiente de execução do pipeline.

Se o pipeline tiver macros, defina os argumentos do ambiente de execução para cada uma delas. Também é possível revisar e mudar as configurações do pipeline antes de executar o pipeline implantado. É possível observar a mudança de status durante as fases da execução do pipeline, como Provisionamento, Iniciando, Em execução e Concluído. Também é possível interromper o pipeline a qualquer momento.

Se você ativar a instrumentação, poderá conferir as métricas geradas pelo pipeline clicando em Propriedades em qualquer nó do pipeline, como uma origem, transformação ou coletor.

Para mais informações sobre as execuções do pipeline, clique em Resumo.

Conferir registros de execução

Depois que uma execução de pipeline for concluída, você poderá conferir o registro dela. Por padrão, você pode acessar os registros de execução dos últimos 30 dias. O Cloud Data Fusion os exclui após esse período. É possível estender esse período usando a API REST.

API REST

Para manter os registros de execução por mais de 30 dias, atualize as opções app.run.records.ttl usando o seguinte comando:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

Substitua:

  • PROJECT_NAME: o Google Cloud nome do projeto
  • REGION_NAME: a região da instância do Cloud Data Fusion, por exemplo, us-east4
  • INSTANCE_NAME: o ID da instância do Cloud Data Fusion
  • DAYS: período em dias para reter registros de execuções de pipelines antigos. Por exemplo, 30.
  • HOURS: frequência, em horas, para verificar e excluir registros de execução antigos, por exemplo, 24.

Exemplo:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

A seguir