Esta página foi traduzida pela API Cloud Translation.

Visão geral da criação e execução de jobs

Este documento explica o processo de execução e as opções de criação de trabalhos. Os jobs em lote permitem executar cargas de trabalho de processamento em lote no Google Cloud. Para saber mais sobre os componentes de um job e os pré-requisitos para usar o Batch, consulte Primeiros passos com o Batch.

Como a criação e a execução de jobs funcionam

Para usar o Batch, crie um job que especifique sua carga de trabalho e os requisitos dela. Em seguida, o Batch o executa automaticamente.

Os detalhes de como a criação e a execução de jobs funcionam são descritos nas seções a seguir:

Ciclo de vida do job: entenda os estados pelos quais um job passa da criação à exclusão.
Enfileiramento e programação de jobs: entenda os fatores que afetam o tempo que um job leva para começar a ser executado.
Execução de jobs: entenda como as tarefas de um job são executadas nos recursos durante a execução.

Ciclo de vida do job

Esta seção descreve o ciclo de vida de um job e as tarefas dele, da criação à exclusão.

Para cada carga de trabalho que você quer executar no lote, siga o seguinte processo básico:

Criar um job:você define a carga de trabalho que quer executar especificando os trabalhos executáveis, as tarefas e outros requisitos. Os detalhes para criar um job são apresentados na seção Opções de criação de jobs deste documento.
Monitorar e resolver problemas do job:quando você termina de criar um job, ele é automaticamente enfileirado, programado e executado nos recursos especificados. É possível conferir os detalhes de um job criado ou de qualquer uma das tarefas dele para ver o estado atual. Se necessário, você pode cancelar um job para interromper ou impedir a execução dele. Depois que um job é executado ou concluído, você também pode monitorar e analisar o job usando registros. Se um job falhar, você poderá resolver o problema usando mensagens de erro, eventos de status ou registros para diagnosticar o problema antes de recriar o job.
Excluir ou exportar o job:as informações de um job no lote vão permanecer disponíveis até que você ou o Google Cloud as exclua. Google Cloud Exclui automaticamente um job 60 dias após a conclusão. Antes disso, você pode excluir o job por conta própria ou, se precisar manter as informações, exporte as informações do job em lote antes da exclusão. As informações sobre um trabalho armazenado em outros serviços Google Cloud não são afetadas quando ele é excluído e têm políticas de retenção separadas. Por exemplo, os registros de um job são retidos e excluídos automaticamente de acordo com a política de retenção do Cloud Logging.

Depois que você cria um job, ele passa pelos seguintes estados:

Em fila (QUEUED): a solicitação de job foi aceita e está aguardando na fila. O job permanece na fila do projeto até que possa ser programado, o que acontece quando os recursos necessários estão disponíveis e os jobs anteriores foram avaliados. No entanto, para evitar que seus jobs fiquem desatualizados, se um job exceder o tempo máximo de espera na fila, o Batch vai falhar automaticamente em vez de programá-lo.
Programado (SCHEDULED): o job foi selecionado da fila para começar a ser executado e os recursos estão sendo alocados.
Em execução (RUNNING): os recursos do job foram criados com sucesso, e as tarefas podem começar a ser executadas.

Quando um job está em execução, cada uma das tarefas avança pelos seguintes estados:
1. Pendente (PENDING): a tarefa está aguardando a execução em uma VM.
2. Atribuída (ASSIGNED): a tarefa foi atribuída a uma VM para execução.
3. Em execução (RUNNING): a tarefa está sendo executada em uma VM.
4. Uma tarefa é concluída em um dos seguintes estados:
  - Sucesso (SUCCEEDED): a tarefa teve sucesso porque cada um dos executáveis atendeu a uma das seguintes condições:
    - O executável foi concluído (retornou um código de saída de zero).
    - O executável falhou (retornou um código de saída diferente de zero), mas era um executável não crítico (você ativou o ignoreExitStatus do executável).
    - O runnable não foi concluído, mas era um runnable em segundo plano (você ativou o background do runnable).
  - Falha (FAILED): a tarefa falhou e parou de ser executada porque pelo menos um executável não atendeu às condições anteriores.
Os recursos do job são excluídos antes de ele ser concluído.
Um job é concluído em um dos seguintes estados:
- Com êxito (SUCCEEDED): o job teve sucesso porque todas as tarefas foram concluídas.
- Falha (FAILED): o job falhou e parou de ser executado porque pelo menos uma das tarefas falhou.
- Cancelado (CANCELLED): um usuário cancelou o job antes de ele ser bem-sucedido ou falhado.

Para mais informações, consulte estados de job e estados de tarefa na documentação de referência.

Enfileiramento e programação de jobs

Em geral, os jobs têm mais chances de ser executados e concluídos mais rapidamente se forem menores e exigirem apenas alguns recursos comuns. Para os jobs de exemplo na documentação do Batch, que geralmente são muito pequenos e usam recursos mínimos, eles podem ser concluídos em apenas alguns minutos.

Especificamente, o tempo que um job leva para terminar a fila e a programação varia para diferentes jobs e em diferentes momentos com base nos seguintes fatores:

Pré-requisitos de job especificados pelo usuário:qualquer pré-requisito que precisa ser atendido antes que o job seja programado.

Por padrão, um job não tem pré-requisitos. Opcionalmente, é possível especificar que um job não pode ser programado até que um ou mais jobs atuais tenham sido concluídos ou tenham falhado. Para mais informações, consulte Programar jobs dependentes (pré-lançamento).
Prioridade do job:a prioridade de um job em relação às prioridades de outros jobs no projeto.

É possível especificar a prioridade de um job incluindo a flag --priority da gcloud CLI ou o campo JSON priority. É possível definir a prioridade de um job como um número entre 0 (menor prioridade) e 99 (maior prioridade). Definir uma prioridade mais alta pode ajudar a executar um job antes de jobs de prioridade mais baixa no projeto.

Se você não configurar a prioridade de um job, o padrão será usar a prioridade mais baixa, 0. Se dois jobs em fila tiverem a mesma prioridade, o job criado primeiro terá a prioridade mais alta.
Disponibilidade de recursos de job:a disponibilidade dos recursos necessários do job nos locais permitidos.

Em primeiro lugar, um job não pode ser executado se você especificar recursos que não são oferecidos nesse local. Quando isso acontece, o job falha com um erro de disponibilidade de zona.

Em segundo lugar, é mais provável que um job seja atrasado ou falhe se algum dos recursos necessários estiver com baixa capacidade em relação à demanda atual devido a erros de disponibilidade de recursos. Como resultado, o job pode ser executado mais cedo quando você precisa de menos recursos, mais comuns, e não restringe a execução em nenhuma zona de uma região.

Para mais informações sobre os recursos de um job, consulte Execução de jobs neste documento. Para mais informações sobre os locais que você pode especificar para um job em lote e seus recursos, consulte a página Locais.
Cotas e limites:os limites que o projeto tem para recursos e solicitações. Google Cloud

Um job não pode ser executado se exceder um limite ou a cota do projeto para qualquer um dos recursos ou solicitações necessários. Quando isso acontece, o lote pode atrasar um job e tentar novamente mais tarde ou falha e mostra um erro relacionado.

Para evitar atrasos e erros, crie jobs que cumpram todos os limites relevantes e garanta que seu projeto tenha cota suficiente. Para mais informações, consulte Cotas e limites de lote.

Execução do trabalho

O tempo que um job leva para ser executado pode variar com base na programação de tarefas e nos recursos do job.

Programação de tarefas

Quando um job é executado, as tarefas são programadas de acordo com o campo política de programação (schedulingPolicy), que permite especificar uma das seguintes opções:

O mais rápido possível (AS_SOON_AS_POSSIBLE) (padrão): as tarefas são executadas assim que os recursos estão disponíveis e podem ser executadas em paralelo. A quantidade de tarefas executadas por vez depende das tarefas paralelas por VM permitidas pelos recursos do job e outras opções de configuração, conforme explicado em Recursos do job neste documento.
Em ordem (IN_ORDER): as tarefas são executadas uma por vez em ordem crescente de índice.

Recursos do job

Cada job em lote é executado em um grupo gerenciado de instâncias regional (MIG), que é um grupo de uma ou mais instâncias de máquina virtual (VM) do Compute Engine correspondentes localizadas em uma das zonas incluídas. Cada VM tem hardware dedicado para núcleos de CPU (especificamente CPUs virtuais (vCPUs)) e memória, que afetam o desempenho do job, e um disco de inicialização, que armazena uma imagem do sistema operacional (SO) e instruções para executar o job.

Durante a execução de um job, o Batch cria e exclui automaticamente os recursos que atendem às suas especificações. Ao criar um job, você configura os recursos dele especificando o seguinte:

Recursos de computação por tarefa:a menos que os valores padrão sejam suficientes, especifique os recursos de computação (vCPUs, memória e, se necessário, armazenamento extra de disco de inicialização) necessários para a execução de cada tarefa. Para mais informações, consulte os campos de recursos de computação por tarefa (computeResource).
Recursos de VM:opcionalmente, você também pode especificar as VMs do job, como o tipo de máquina e o SO, e outros recursos, como GPUs e volumes de armazenamento, usando os campos política de recursos de VM (instances[].policy) ou o campo alternativo instances[].instanceTemplate. Se você deixar esses campos indefinidos (o que não é possível ao criar um job usando o consoleGoogle Cloud ), o lote tentará selecionar VMs compatíveis automaticamente e não adicionará recursos adicionais.
Importante:se você especificar os recursos da VM para um job (qualquer campo instances[].policy ou instances[].instanceTemplate), verifique se esses campos são compatíveis entre si e com o job. Por exemplo, faça o seguinte:
- Verifique se todos os recursos de VM especificados estão disponíveis no local das VMs do job. Para mais informações, consulte a página Locais.
- Se você especificar o tipo de máquina das VMs do job, verifique se o tipo de máquina tem vCPUs e memória suficientes para os requisitos da tarefa do job: as vCPUs e a memória necessárias para cada tarefa (campos cpuMilli e memoryMib) e o número máximo de tarefas paralelas por VM (campo taskCountPerNode).

O número de VMs e de tarefas que podem ser executadas simultaneamente em cada VM varia para diferentes jobs com base na programação de tarefas e nos requisitos de hardware especificados. Se você especificar que as tarefas de um job serão executadas IN_ORDER, o job terá uma VM e executará apenas uma tarefa por vez. Caso contrário, se as tarefas de um job forem executadas em AS_SOON_AS_POSSIBLE, você poderá estimar o número de VMs e o número de tarefas simultâneas usando a seguinte fórmula:

\[{vmsPerJob}=\frac{taskCount}{parallelTasksPerVm}\]

Esta fórmula tem os seguintes valores:

\({vmsPerJob}\): o número máximo de VMs para um job. O número real de VMs criadas para um job pode ser menor do que isso. Por exemplo, se o lote espera que seja mais rápido executar um job com menos recursos do que esperar por mais recursos. Esse valor também é limitado pelos limites de VMs simultâneas por job.
\({taskCount}\): o número total de tarefas do job, que você define usando o campo contagem de tarefas (taskCount).
\({parallelTasksPerVM}\): o número máximo de tarefas que podem ser executadas em uma VM simultaneamente.

Esse valor é determinado por todos os seguintes critérios:
- O valor mínimo é 1 tarefa.
- O valor máximo é o menor de 20 tarefas e, se definido, o valor do campo máximo de tarefas paralelas por job (parallelism).
- Se o campo Máximo de tarefas paralelas por VM (taskCountPerNode) for definido, esse valor será usado.
  
  Caso contrário, se taskCountPerNode estiver indefinido, o lote decidirá um valor dividindo o número total de recursos de computação, especificamente vCPUs, por VM na quantidade necessária para cada tarefa:
  
  \[{parallelTasksPerVm}=\frac{vcpusPerVm}{vcpusPerTask}\]
  
  Esta fórmula tem os seguintes valores:
  - \({vcpusPerVm}\): o número total de vCPUs por VM, que é determinado pelo tipo de máquina das VMs do job.
  - \({vcpusPerTask}\): o número de vCPUs por tarefa, que é determinado pela conversão das unidades do campo vCPUs por tarefa (cpuMilli).

Opções de criação de jobs

Criar e executar um job básico explica os conceitos básicos, incluindo como definir um executável usando um script ou imagem de contêiner e como configurar variáveis de ambiente predefinidas e personalizadas.

Depois de entender os fundamentos da criação de jobs, considere criar um job que use uma ou mais das seguintes opções de configuração:

Controle o acesso a um job:
- Controlar o acesso a um job usando uma conta de serviço personalizada explica como especificar a conta de serviço de um job, o que influencia os recursos e aplicativos que as VMs de um job podem acessar. Se você não especificar uma conta de serviço personalizada, os jobs vão usar a conta de serviço padrão do Compute Engine.
- O Visão geral de rede explica quando e como personalizar a configuração de rede de um job, incluindo a especificação da rede do job, o bloqueio de conexões externas e a proteção de dados e recursos usando o VPC Service Controls.
- Proteger dados sensíveis usando o Secret Manager explica como definir dados sensíveis com segurança, como variáveis de ambiente personalizadas e credenciais de login, usando secrets do Secret Manager para especificar informações criptografadas ao criar um job.
Configure outras opções para um job:
- Configurar a comunicação de tarefas usando uma biblioteca MPI explica como configurar um job com tarefas interdependentes que se comunicam entre si em diferentes VMs usando uma biblioteca de interface de envio de mensagens (MPI). Um caso de uso comum para MPI é a computação de alto desempenho (HPC) acoplada.
- Personalize os recursos em que um job é executado:
  - Definir recursos de job usando um modelo de instância de VM explica como especificar um modelo de VM do Compute Engine para definir os recursos de um job ao criá-lo. Essa é uma alternativa para especificar os recursos de um job diretamente usando o campo instances[].policy.
  - Usar GPUs em um job explica como definir um job que usa uma ou mais unidades de processamento gráfico (GPUs). Os casos de uso comuns para jobs que usam GPUs incluem cargas de trabalho de processamento de dados ou machine learning (ML) intensivas.
  - Usar volumes de armazenamento para um job explica como definir um job que pode acessar um ou mais volumes de armazenamento externo. As opções de armazenamento incluem discos persistentes novos ou existentes, novos SSDs locais, buckets do Cloud Storage e um sistema de arquivos de rede (NFS), como um compartilhamento de arquivos do Filestore.
  - O Visão geral do ambiente do SO da VM explica quando e como personalizar o ambiente do sistema operacional (SO) da VM para um job, incluindo a imagem do SO da VM e os discos de inicialização.
- Otimize vários aspectos de um job:
  - Melhorar o monitoramento e a análise:
    - Gravar registros de tarefas explica como configurar os executáveis de um job para gravar registros de tarefas. Ao gravar logs de tarefas, você pode mostrar informações personalizadas no Cloud Logging, o que pode ajudar a analisar e resolver problemas com mais facilidade.
    - Configurar eventos de status personalizados explica como configurar eventos de status personalizados para os executáveis de um job. Os eventos de status personalizados permitem descrever eventos importantes que acontecem para executáveis e aparecem quando você confere o histórico de eventos de status de um job, o que pode ajudar a analisar e resolver problemas com mais facilidade.
    - Ativar notificações de status explica como configurar um job para enviar notificações do Pub/Sub sobre o status dele, que podem ser armazenadas e consultadas em uma tabela do BigQuery. Antes de ler este documento, configure seu projeto para monitorar o status do job usando notificações do Pub/Sub e o BigQuery.
    - Ativar as métricas do Agente de operações explica como configurar um job para instalar automaticamente o Agente de operações. O Agente de operações coleta outras métricas sobre o desempenho e a utilização dos recursos de um job. Para mais informações sobre como visualizar e usar métricas de recursos, consulte Monitorar e otimizar recursos de trabalho visualizando métricas.
  - Programar jobs dependentes (pré-lançamento) explica como especificar um job que não é executado até que um ou mais jobs de dependência tenham sido bem-sucedidos ou tenham falhado. Se você tiver uma carga de trabalho com requisitos de recursos variáveis, é possível reduzir os custos e o uso da cota separando os tipos de VM usados para operações de baixa demanda (como o preparo de dados) e operações de computação intensiva (como o processamento de dados).
  - Automatizar novas tentativas de tarefas explica como repetir automaticamente as tarefas de um job após todas ou falhas especificadas. As novas tentativas automatizadas podem ajudar a reduzir a dificuldade de solução de problemas e o tempo de execução geral necessário para jobs que apresentam erros temporários. Por exemplo, use novas tentativas automáticas para um job executado em VMs spot, que oferecem descontos significativos, mas podem não estar sempre disponíveis e podem ser interrompidas a qualquer momento.
  - Limitar os tempos de execução usando timeouts explica como limitar o tempo de execução de uma tarefa ou um executável. Ao evitar tempos de execução excessivos, você pode reduzir custos e atrasos inesperados.
  - Garantir a disponibilidade de recursos usando reservas de VM explica como configurar um job que pode ser executado em VMs reservadas. O uso de VMs reservadas pode ajudar a minimizar o tempo de programação de um job, evitar erros de disponibilidade de recursos e otimizar custos.
  - Reduzir a latência:
    - Colocalizar VMs para reduzir a latência explica como reduzir a latência da rede entre as VMs de um job exigindo que elas estejam localizadas fisicamente próximas umas das outras. Esse benefício de desempenho pode ser especialmente útil para jobs que têm comunicações de rede frequentes entre VMs, como tarefas que se comunicam usando bibliotecas MPI.
    - Usar o streaming de imagens explica como melhorar o tempo de inicialização do job fazendo streaming de imagens de contêiner do Artifact Registry.
Use outros serviços para criar e executar jobs:
- Orquestrar jobs usando o Workflows explica como usar o Workflows para executar as tarefas de um job na ordem que você define usando a sintaxe do Workflows.
- Orquestrar jobs usando o Nextflow explica como executar um job do lote usando um pipeline do Nextflow, que pode ser usado para orquestrar fluxos de trabalho de bioinformática.
- Orquestrar jobs usando o dsub explica como executar um job do Batch usando um pipeline dsub, que pode ser usado para orquestrar fluxos de trabalho de processamento em lote em Google Cloud services.
- Criar e executar jobs em lote usando o Terraform e o Cloud Scheduler explica como incorporar jobs em lote ao Terraform. O Terraform permite provisionar e gerenciar a infraestrutura especificando o estado preferido em arquivos de configuração, que podem ser tratados como código e armazenados em sistemas de controle de versão, como o GitHub.

A seguir

Aprenda os fundamentos da criação de vagas:
1. Opcional: crie e execute um job de exemplo.
2. Crie e execute um job básico.