Resolva problemas do fluxo de trabalho do Cloud TPU
Depois de ter a carga de trabalho de preparação ou inferência em execução nas TPUs, o passo seguinte é garantir que a carga de trabalho está a funcionar conforme esperado. O Cloud TPU gera métricas e registos que lhe permitem procurar e depurar quaisquer VMs de TPU que não estejam a funcionar como esperado. Referimo-nos a estas VMs como valores atípicos ao longo desta documentação.
O fluxo de trabalho geral de resolução de problemas é o seguinte:
- Veja as métricas do Cloud TPU para verificar se existem VMs de TPU atípicas
- Veja os registos do Cloud TPU para as VMs de TPU atípicas
- Crie um perfil da sua carga de trabalho
Pode ver métricas e registos no Explorador de métricas e no Explorador de registos na Google Cloud consola. Também pode usar painéis de controlo de monitorização e registo para recolher todas as métricas e registos relacionados com a Cloud TPU em painéis de controlo individuais.
Métricas da VM da Cloud TPU
O Cloud Monitoring recolhe automaticamente métricas das suas TPUs e das VMs do Compute Engine do respetivo anfitrião. As métricas monitorizam quantidades numéricas ao longo do tempo, por exemplo, a utilização da CPU, a utilização da rede ou a duração de inatividade do TensorCore. Para mais informações sobre as métricas de Cloud TPU, consulte o artigo Monitorizar VMs de TPU.
Registos do Cloud TPU
O Cloud Logging recolhe automaticamente registos das suas TPUs e das VMs do Compute Engine do respetivo anfitrião. O Cloud Logging monitoriza eventos gerados pelo Cloud TPU. Também pode instrumentar o seu código para gerar registos. O Cloud TPU gera dois tipos de registos:
- Registos do trabalhador da TPU
- Registos de recursos auditados
Os registos do trabalhador da TPU contêm informações sobre um trabalhador da TPU específico numa zona específica, por exemplo, a quantidade de memória disponível no trabalhador da TPU (system_available_memory_GiB).
Os registos de recursos auditados contêm informações sobre quando uma API Cloud TPU específica foi chamada e quem fez a chamada. Por exemplo, CreateNode
, UpdateNode
e
DeleteNode
.
Também pode usar o pacote cloud-tpu-diagnostics
PyPi para escrever rastreios de pilha
nos registos. Para mais informações, consulte o artigo Depurar VMs de TPU.
Para mais informações sobre registos, consulte o artigo Registo.
Painéis de controlo de monitorização e registo
Ter uma única página na consola pode facilitar a visualização e a interpretação das métricas e dos registos relacionados com a Cloud TPU. Google Cloud O repositório GitHub monitoring-debugging contém um conjunto de scripts e ficheiros de configuração que usam o Terraform para implementar automaticamente painéis de controlo que contêm todas as métricas e registos relacionados com o Cloud TPU em painéis de controlo. Para configurar estes painéis de controlo no seu Google Cloud projeto, consulte o artigo Painéis de controlo de monitorização e registo.
Criar perfis das suas cargas de trabalho em VMs de TPU
A criação de perfis permite-lhe otimizar o desempenho da preparação do seu modelo em VMs de TPU. Usa o TensorBoard e o plug-in do TensorBoard da TPU para criar um perfil do seu modelo. Para mais informações sobre como criar um perfil da sua carga de trabalho, consulte o artigo Crie um perfil do seu modelo em VMs de TPU.
Para mais informações sobre a utilização do TensorBoard com um dos frameworks suportados, consulte os seguintes documentos: