Neste documento, mostramos como criar uma configuração de fluxo de trabalho no Dataform para programar e configurar execuções de fluxo de trabalho SQL. É possível usar as configurações do fluxo de trabalho para executar fluxos de trabalho SQL do Dataform de acordo com uma programação.
Sobre as configurações de fluxo de trabalho
Para programar execuções do Dataform de todas ou de algumas ações de fluxo de trabalho SQL no BigQuery, crie configurações de fluxo de trabalho. Em uma configuração de fluxo de trabalho, você seleciona uma configuração de lançamento de compilação, seleciona ações de fluxo de trabalho SQL para execução e define a programação de execução.
Em seguida, durante uma execução programada da configuração do fluxo de trabalho, o Dataform implanta a seleção de ações do resultado da compilação mais recente na configuração da versão para o BigQuery. Também é possível acionar manualmente a execução de uma configuração de fluxo de trabalho com a API Dataform workflowConfigs.
Uma configuração de fluxo de trabalho do Dataform contém as seguintes configurações de execução:
- ID da configuração do fluxo de trabalho
- Configuração da versão
Conta de serviço
Conta de serviço associada à configuração do fluxo de trabalho. Você pode selecionar a conta de serviço padrão do Dataform, uma conta de serviço associada ao seu projeto do Google Cloud ou inserir manualmente uma conta de serviço diferente. Por padrão, as configurações de fluxo de trabalho usam as mesmas contas de serviço dos repositórios.
Ações do fluxo de trabalho SQL a serem executadas:
- Todas as ações
- Seleção de ações
- Seleção de tags
Programação de execução e fuso horário
Antes de começar
No Console do Google Cloud, acesse a página Dataform.
Selecione ou crie um repositório.
Crie uma configuração de versão.
Funções exigidas
Para receber as permissões necessárias para criar uma configuração de fluxo de trabalho, peça ao administrador para conceder a você o papel do IAM de Administrador do Dataform (roles/dataform.admin
) nos repositórios.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Para usar uma conta de serviço que não seja a conta de serviço padrão do Dataform, conceda acesso à conta de serviço personalizada.
Criar uma configuração de fluxo de trabalho
Para criar uma configuração de fluxo de trabalho do Dataform, siga estas etapas:
- No repositório, acesse Lançamentos e programação.
- Na seção Configurações do fluxo de trabalho, clique em Criar.
No painel Criar configuração do fluxo de trabalho, no campo ID da configuração, insira um ID exclusivo para a configuração do fluxo de trabalho.
Os IDs só podem incluir números, letras, hifens e sublinhados.
No menu suspenso Configuração da versão, selecione uma configuração da versão de compilação.
Opcional: no campo Frequência, insira a frequência das execuções no formato unix-cron.
Para garantir que o Dataform execute o resultado de compilação mais recente na configuração de lançamento correspondente, mantenha um intervalo mínimo de 1 hora entre o horário de criação do resultado de compilação e o horário da execução programada.
No menu suspenso Conta de serviço, selecione uma conta de serviço para a configuração do fluxo de trabalho.
No menu suspenso, você pode selecionar a conta de serviço padrão do Dataform ou qualquer conta de serviço associada ao seu projeto do Google Cloud a que você tem acesso. Se você não selecionar uma conta de serviço, a configuração do fluxo de trabalho vai usar a conta de serviço do repositório.
Opcional: no menu suspenso Fuso horário, selecione o fuso horário para as execuções.
O fuso horário padrão é UTC.
Selecione as ações do fluxo de trabalho SQL a serem executadas:
- Para executar todo o fluxo de trabalho do SQL, clique em Todas as ações.
- Para executar ações selecionadas no fluxo de trabalho do SQL, clique em Seleção de ações e selecione as ações.
- Para executar ações com tags selecionadas, clique em Seleção de tags e escolha as tags.
- Opcional: para executar ações ou tags selecionadas e as dependências delas, selecione a opção Incluir dependências.
- Opcional: para executar as ações ou tags selecionadas e as dependências delas, selecione a opção Incluir dependências.
- Opcional: para recriar todas as tabelas do zero, selecione a opção Run with full refresh.
Sem essa opção, o Dataform atualiza tabelas incrementais sem recriá-las do zero.
Clique em Criar.
Por exemplo, a configuração de fluxo de trabalho a seguir executa ações
com a tag hourly
a cada hora no fuso horário CEST:
- ID da configuração:
production-hourly
- Configuração da versão: -
- Frequência:
0 * * * *
- Fuso horário:
Central European Summer Time (CEST)
- Seleção de ações do fluxo de trabalho SQL: seleção de tags, tag
hourly
Editar uma configuração de fluxo de trabalho
Para editar uma configuração de fluxo de trabalho, siga estas etapas:
- No repositório, acesse Lançamentos e programação.
- Na configuração do fluxo de trabalho que você quer editar, clique no menu Mais e em Editar.
- No painel Editar configuração do fluxo de trabalho, edite as configurações da configuração da versão e clique em Salvar.
Excluir uma configuração de fluxo de trabalho
Para excluir uma configuração de fluxo de trabalho, siga estas etapas:
- No repositório, acesse Lançamentos e programação.
- Na configuração do fluxo de trabalho que você quer excluir, clique no menu Mais e em Excluir.
- Na caixa de diálogo Excluir configuração da versão, clique em Excluir.
A seguir
- Para saber como configurar as configurações de lançamento de compilação do Dataform, consulte Criar uma configuração de lançamento.
- Para saber mais sobre o ciclo de vida do código do Dataform, consulte Introdução ao ciclo de vida do código no Dataform.