Orquestrar fluxos de trabalho

Para solicitar suporte ou enviar feedback sobre esse recurso, envie um e-mail para bigquery-workflows-preview-feedback@google.com.

Este documento descreve como orquestrar fluxos de trabalho, incluindo como programar fluxos de trabalho e inspecionar execuções de fluxos de trabalho programadas.

Os fluxos de trabalho são gerados pelo Dataform.

Cada programação de fluxo de trabalho é executada por uma conta de serviço personalizada do Dataform, que você seleciona durante a criação da programação. Para mais informações sobre os tipos de contas de serviço no Dataform, consulte Sobre as contas de serviço no Dataform.

As mudanças feitas em um fluxo de trabalho são salvas automaticamente, mas ficam disponíveis apenas para você e para os usuários que receberam a função de administrador do Dataform no projeto. Para atualizar a programação com uma nova versão do fluxo de trabalho, é necessário implantar o fluxo de trabalho. A implantação atualiza a programação para usar a versão atual do fluxo de trabalho. Os agendamentos sempre executam a versão implantada mais recente.

As programações de fluxos de trabalho que contêm notebooks usam uma especificação de ambiente de execução padrão. Durante uma execução programada de um fluxo de trabalho que contém notebooks, o BigQuery grava a saída do notebook no bucket do Cloud Storage selecionado durante a criação da programação.

Antes de começar

Antes de começar, crie um fluxo de trabalho.

Ativar a programação do fluxo de trabalho

Para programar fluxos de trabalho, é necessário conceder os seguintes papéis à conta de serviço que você planeja usar para programações de fluxos de trabalho:

Usuário da conta de serviço (roles/iam.serviceAccountUser)
Siga Conceder uma única função em uma conta de serviço para adicionar a conta de serviço como principal a si mesma. Em outras palavras, adicione a conta de serviço como principal à mesma conta de serviço. Em seguida, conceda o papel de usuário da conta de serviço a esse principal.

Se o fluxo de trabalho tiver consultas SQL, conceda os seguintes papéis à conta de serviço que você planeja usar para programações de fluxo de trabalho:

Usuário de jobs do BigQuery(roles/bigquery.jobUser)
Siga Conceder um único papel em um projeto para conceder a função de usuário do job do BigQuery à sua conta de serviço em projetos de onde seus fluxos de trabalho leem dados.
Leitor de dados do BigQuery (roles/bigquery.dataViewer)
Siga Conceder um único papel em um projeto para conceder o papel de leitor de dados do BigQuery à sua conta de serviço em projetos em que seus fluxos de trabalho leem dados.
Editor de dados do BigQuery (roles/bigquery.dataEditor)
Siga Conceder um único papel em um projeto para conceder o papel de Editor de dados do BigQuery à sua conta de serviço em projetos para os quais seus fluxos de trabalho gravam dados.

Se o fluxo de trabalho tiver notebooks, conceda os seguintes papéis à conta de serviço que você planeja usar para as programações de fluxo de trabalho:

Usuário Executor do notebook (roles/aiplatform.notebookExecutorUser)
Siga Conceder um único papel em um projeto para conceder a função de usuário de executor de notebooks à sua conta de serviço no projeto selecionado.
Administrador do Storage (roles/storage.admin)
Siga as instruções em Adicionar um principal a uma política no nível do bucket para adicionar a conta de serviço como um principal ao bucket do Cloud Storage que você planeja usar para armazenar a saída de notebooks executados em execuções de fluxo de trabalho programadas e conceda o papel de administrador do Storage a esse principal.

Além disso, é necessário conceder o seguinte papel à conta de serviço padrão do Dataform:

Criador do token da conta de serviço (roles/iam.serviceAccountTokenCreator)
Siga as instruções em Conceder acesso à criação de tokens a uma conta de serviço para adicionar a conta de serviço padrão do Dataform como principal à sua conta de serviço e conceder o papel "Criador de token da conta de serviço" a esse principal.

Para saber mais sobre contas de serviço no Dataform, consulte Sobre as contas de serviço no Dataform.

Funções exigidas

Para conseguir as permissões necessárias para gerenciar fluxos de trabalho, peça ao administrador para conceder a você os papéis do IAM a seguir:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Para mais informações sobre o IAM do Dataform, consulte Controle de acesso com o IAM.

Criar uma programação de fluxo de trabalho

Para programar um fluxo de trabalho, siga estas etapas:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Análises, expanda o projeto e a pasta Fluxos de trabalho e selecione um fluxo de trabalho.

  3. Clique em Programar.

  4. No painel Fluxo de trabalho da programação, no campo Nome da programação, insira um nome para a programação.

  5. No campo Conta de serviço, selecione uma conta de serviço.

  6. Se o fluxo de trabalho tiver um notebook, no campo Bucket do Cloud Storage, clique em Procurar e selecione ou crie um bucket do Cloud Storage para armazenar a saída dos notebooks no fluxo de trabalho.

    A conta de serviço selecionada precisa receber o papel do IAM "Administrador de armazenamento" no bucket selecionado. Para mais informações, consulte Ativar a programação de notebooks.

  7. Na seção Frequência de programação, realize estas ações:

    1. No menu suspenso Repetições, selecione a frequência de execução do fluxo de trabalho programado.
    2. No campo Em horário, insira o horário das execuções programadas do fluxo de trabalho.
    3. No menu suspenso Fuso horário, selecione o fuso horário da programação.
  8. Clique em Criar programação.

Quando você cria a programação, a versão atual do fluxo de trabalho é implantada automaticamente. Para atualizar a programação com uma nova versão do fluxo de trabalho, implante o fluxo de trabalho.

A versão mais recente implantada do fluxo de trabalho é executada no horário e na frequência selecionados.

Implantar um fluxo de trabalho

A implantação de um fluxo de trabalho atualiza a programação com a versão atual do fluxo de trabalho. Os agendamentos executam a versão implantada mais recente do fluxo de trabalho.

Para implantar um fluxo de trabalho, siga estas etapas:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Análises, expanda o projeto e a pasta Fluxos de trabalho e selecione um fluxo de trabalho.

  3. Clique em Implantar.

A programação correspondente é atualizada com a versão atual do fluxo de trabalho. A versão mais recente implantada do fluxo de trabalho é executada no horário programado.

Desativar uma programação

Para pausar as execuções programadas de um fluxo de trabalho selecionado sem excluir a programação, desative a programação.

Para desativar uma programação de um fluxo de trabalho selecionado, siga estas etapas:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Análises, expanda o projeto e a pasta Fluxos de trabalho e selecione um fluxo de trabalho.

  3. Clique em Ver programação.

  4. Na tabela de detalhes da programação, na linha Estado da programação, clique no botão A programação está ativada.

Ativar uma programação

Para retomar as execuções programadas de uma programação de fluxo de trabalho desativada, siga estas etapas:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Análises, expanda o projeto e a pasta Fluxos de trabalho e selecione um fluxo de trabalho.

  3. Clique em Ver programação.

  4. Na tabela de detalhes da programação, na linha Estado da programação, clique no botão A programação está desativada.

Executar manualmente um fluxo de trabalho implantado

Quando você executa manualmente um fluxo de trabalho implantado em uma programação selecionada, o BigQuery executa o fluxo de trabalho implantado uma vez, independente da programação.

Para executar manualmente um fluxo de trabalho implantado, siga estas etapas:

  1. No console do Google Cloud, acesse a página Orquestração.

    Acessar a página Orquestração

  2. Clique no nome da programação de fluxo de trabalho selecionada.

  3. Na página de detalhes da programação, clique em Executar.

Conferir todas as programações de fluxo de trabalho

Para conferir todas as programações de fluxo de trabalho no seu projeto do Google Cloud, siga estas etapas:

  1. No console do Google Cloud, acesse a página Orquestração.

    Acessar a página Orquestração

  2. Opcional: para mostrar outras colunas com detalhes da programação do fluxo de trabalho, clique em Opções de exibição de colunas, selecione as colunas e clique em OK.

Conferir detalhes da programação do fluxo de trabalho

Para conferir os detalhes de uma programação de fluxo de trabalho selecionada, siga estas etapas:

Painel Explorer

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Análises, expanda o projeto e a pasta Fluxos de trabalho e selecione um fluxo de trabalho.

  3. Clique em Ver programação.

Página Orquestração

  1. No console do Google Cloud, acesse a página Orquestração.

    Acessar a página Orquestração

  2. Clique no nome da programação de fluxo de trabalho selecionada.

Conferir execuções programadas anteriores

Para conferir as execuções anteriores de uma programação de fluxo de trabalho selecionada, siga estas etapas:

Painel Explorer

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Análises, expanda o projeto e a pasta Fluxos de trabalho e selecione um fluxo de trabalho.

  3. Clique em Execuções.

  4. Opcional: para atualizar a lista de execuções anteriores, clique em Atualizar.

Página Orquestração

  1. No console do Google Cloud, acesse a página Orquestração.

Acessar a página Orquestração

  1. Clique no nome do fluxo de trabalho selecionado.

  2. Na página Detalhes da programação, na seção Execuções anteriores, inspecione as execuções anteriores.

  3. Opcional: para atualizar a lista de execuções anteriores, clique em Atualizar.

Editar uma programação de fluxo de trabalho

Para editar uma programação de fluxo de trabalho, siga estas etapas:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Análises, expanda o projeto e a pasta Fluxos de trabalho e selecione um fluxo de trabalho.

  3. Clique em Ver programação e em Editar.

  4. Na caixa de diálogo Programar fluxo de trabalho, edite a programação e clique em Atualizar programação.

Excluir uma programação de fluxo de trabalho

Para excluir permanentemente uma programação de fluxo de trabalho, siga estas etapas:

  1. No console do Google Cloud, acesse a página Orquestração.

    Acessar a página Orquestração

  2. Escolha uma destas opções:

    • Clique no nome da programação de fluxo de trabalho selecionada e, na página Detalhes da programação, clique em Excluir.

    • Na linha que contém a programação de fluxo de trabalho selecionada, clique em Ver ações na coluna Ações e em Excluir.

  3. Na caixa de diálogo exibida, clique em Excluir.

A seguir