Esta página descreve os conceitos básicos sobre a implantação e a execução de pipelines no Cloud Data Fusion.
Implantar canais
Depois de concluir o design e a depuração de um pipeline de dados e ficar satisfeito com os dados mostrados na visualização, você estará pronto para implantar o pipeline.
Quando você implanta o pipeline, o Cloud Data Fusion Studio cria o fluxo de trabalho e os jobs do Apache Spark correspondentes em segundo plano.
Executar pipelines
Depois de implantar um pipeline, é possível executá-lo das seguintes maneiras:
- Para executar um pipeline sob demanda, abra um pipeline implantado e clique em Executar.
- Para programar a execução do pipeline em um determinado horário, abra um pipeline implantado e clique em Programar.
- Para acionar o pipeline com base na conclusão de outro, abra um pipeline implantado e clique em Gatilhos de entrada.
O Pipeline Studio salva o histórico de um pipeline sempre que ele é executado. Você pode alternar entre diferentes versões do ambiente de execução do pipeline.
Se o pipeline tiver macros, defina os argumentos do ambiente de execução para cada uma delas. Também é possível revisar e mudar as configurações do pipeline antes de executar o pipeline implantado. É possível observar a mudança de status durante as fases da execução do pipeline, como Provisionamento, Iniciando, Em execução e Concluído. Também é possível interromper o pipeline a qualquer momento.
Se você ativar a instrumentação, poderá conferir as métricas geradas pelo pipeline clicando em Propriedades em qualquer nó do pipeline, como uma origem, transformação ou coletor.
Para mais informações sobre as execuções do pipeline, clique em Resumo.
Conferir registros de execução
Depois que uma execução de pipeline for concluída, você poderá conferir o registro dela. Por padrão, você pode acessar os registros de execução dos últimos 30 dias. O Cloud Data Fusion os exclui após esse período. É possível estender esse período usando a API REST.
API REST
Para manter os registros de execução por mais de 30 dias, atualize as opções app.run.records.ttl
usando o seguinte comando:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
Substitua:
PROJECT_NAME
: o Google Cloud nome do projetoREGION_NAME
: a região da instância do Cloud Data Fusion, por exemplo,us-east4
INSTANCE_NAME
: o ID da instância do Cloud Data FusionDAYS
: período em dias para reter registros de execuções de pipelines antigos. Por exemplo,30
.HOURS
: frequência, em horas, para verificar e excluir registros de execução antigos, por exemplo,24
.
Exemplo:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'
A seguir
- Saiba mais sobre as configurações de pipeline.