Resolver problemas no fluxo de trabalho do Cloud TPU
Depois que você tiver sua carga de trabalho de treinamento ou inferência em execução em TPUs, a próxima etapa é garantir que ela esteja funcionando conforme o esperado. O Cloud TPU gera métricas e registros que permitem procurar e depurar VMs do TPU que não estão se comportando como esperado. Chamamos essas VMs de valores discrepantes nesta documentação.
O fluxo de trabalho de solução de problemas geral é o seguinte:
- Conferir as métricas do Cloud TPU para verificar VMs de TPU fora da curva
- Conferir os registros da Cloud TPU para as VMs da TPU fora da curva
- Criar um perfil da carga de trabalho
É possível conferir métricas e registros no Metrics Explorer e no Logs Explorer no console Google Cloud. Também é possível usar painéis de monitoramento e registro para coletar todas as métricas e registros relacionados ao Cloud TPU em painéis individuais.
Métricas de VM do Cloud TPU
O Cloud Monitoring coleta automaticamente métricas das TPUs e das VMs do Compute Engine que elas hospedam. As métricas rastreiam quantidades numéricas ao longo do tempo, por exemplo, utilização da CPU, uso da rede ou duração de inatividade do TensorCore. Para mais informações sobre as métricas do Cloud TPU, consulte Monitorar VMs do TPU.
Registros do Cloud TPU
O Cloud Logging coleta automaticamente registros das TPUs e das VMs do Compute Engine host. O Cloud Logging rastreia eventos gerados pelo Cloud TPU. Você também pode instrumentar seu código para gerar registros. Dois tipos de registros são gerados pela Cloud TPU:
- Registros do worker da TPU
- Registros de recursos auditados
Os registros do worker da TPU contêm informações sobre um worker específico em uma zona específica, por exemplo, a quantidade de memória disponível no worker da TPU (system_available_memory_GiB).
Os registros de recursos auditados contêm informações sobre quando uma API específica do Cloud TPU
foi chamada e quem fez a chamada. Por exemplo, CreateNode
, UpdateNode
e
DeleteNode
.
Também é possível usar o pacote PyPi cloud-tpu-diagnostics
para gravar rastros de pilha
em registros. Para mais informações, consulte Depurar VMs de TPU.
Para mais informações sobre registros, consulte Registros.
Painéis de monitoramento e geração de registros
Ter uma única página no console do Google Cloud pode facilitar a visualização e a interpretação de métricas e registros relacionados ao Cloud TPU. O repositório do GitHub monitoring-debugging contém um conjunto de scripts e arquivos de configuração que usam o Terraform para implantar automaticamente painéis que contêm todas as métricas e registros relacionados ao Cloud TPU. Para configurar esses painéis no Google Cloud projeto, consulte Painéis de monitoramento e geração de registros.
Como criar perfis das cargas de trabalho em VMs de TPU
A criação de perfis permite otimizar o desempenho de treinamento do modelo em VMs de TPU. Você usa o TensorBoard e o plug-in TPU TensorBoard para criar o perfil do modelo. Para mais informações sobre como criar perfis da sua carga de trabalho, consulte Criar perfis do modelo em VMs de TPU.
Para mais informações sobre como usar o TensorBoard com um dos frameworks compatíveis, consulte estes documentos: