Nesta página, descrevemos problemas conhecidos que podem ser encontrados ao usar o Batch.
Se precisar de mais ajuda para usar o Batch, consulte a documentação de solução de problemas ou Receba suporte.
Pode haver latência ao listar vagas
Se o projeto contiver mais de 10.000, poderá haver latência ao listar os jobs usando a página Lista de jobs em lote no console do Google Cloud, na CLI gcloud ou na API Batch. Esse problema não afeta a visualização de um job específico.
Para solucionar esse problema, reduza o número de jobs no projeto ou visualize e consulte as informações dos jobs armazenadas no BigQuery. Para armazenar as informações do job no BigQuery, use uma ou mais das seguintes opções:
Para fazer streaming automático das informações de status de um job para o BigQuery, ative as notificações do Pub/Sub durante a criação do job. Para mais informações, consulte Monitorar jobs usando notificações.
Para exportar todas as informações de um job concluído para o BigQuery, execute o script de amostra
export-to-bigquery-delete-batch-jobs
. Para mais informações, consulte Excluir e exportar jobs.
Os jobs podem falhar ao especificar imagens de SO de VM do Compute Engine (ou personalizadas) com kernels desatualizados
Um job pode falhar se especificar uma imagem do SO da VM do Compute Engine que não tenha a versão mais recente do kernel. Esse problema também afeta todas as imagens personalizadas com base nas imagens do SO da VM do Compute Engine. As imagens públicas do Compute Engine que causam esse problema não são identificadas com facilidade e estão sujeitas a alterações a qualquer momento.
Esse problema não é indicado por uma mensagem de erro específica. Em vez disso, considere esse problema se você tiver um job que falhe inesperadamente e especifique uma imagem do SO da VM do Compute Engine ou uma imagem personalizada semelhante.
Para evitar ou resolver esse problema, faça o seguinte:
- Sempre que possível, use imagens em lote ou personalizadas com base em imagens em lote, que não são afetadas por esse problema.
- Se não for possível usar uma imagem em lote, tente a versão mais recente da imagem do Compute Engine preferida. Geralmente, as versões mais recentes das imagens do Compute Engine têm mais chances de ter a versão mais recente do kernel do que as versões mais antigas.
- Se a versão mais recente de uma imagem específica não funcionar, talvez seja necessário testar um SO diferente ou criar uma imagem personalizada. Por exemplo, se a versão mais recente do Debian 11 não funcionar, tente criar uma imagem personalizada a partir de uma VM do Compute Engine que executa o Debian 11 e que você atualizou para usar a versão mais recente do kernel.
Esse problema é causado por uma versão desatualizada do kernel na imagem do SO da VM que faz com que a VM seja reinicializada. Quando um job especifica qualquer imagem do SO da VM que não seja do lote ou baseada em uma imagem desse tipo, o lote instala os pacotes necessários nas VMs do job depois que eles são iniciados. Os pacotes necessários podem variar para diferentes jobs e mudar ao longo do tempo, e podem exigir que a imagem do SO da VM tenha a versão mais recente do kernel. Esse problema aparece ao atualizar a versão do kernel exige que a VM seja reiniciada, o que faz com que a instalação do pacote e o job falhem.
Para mais informações sobre as imagens do SO da VM, consulte Visão geral do ambiente do SO para VMs de um job.
Os jobs que usam GPUs e imagens de SO de VM com kernels desatualizados só podem falhar quando os drivers são instalados automaticamente
Esse problema está intimamente relacionado a os jobs podem falhar ao especificar imagens de SO da VM do Compute Engine (ou personalizadas) com kernels desatualizados. Especificamente, os jobs que especificam uma imagem do SO da VM do Compute Engine (ou personalizada) sem o kernel mais recente e usam GPUs podem falhar somente se você tentar instalar os drivers de GPU automaticamente. Para esses jobs, também é possível resolver as falhas instalando drivers de GPU manualmente.
Para mais informações sobre GPUs, consulte Criar e executar um job que usa GPUs.