Resolva problemas do fluxo de trabalho do Cloud TPU

Depois de ter a carga de trabalho de preparação ou inferência em execução nas TPUs, o passo seguinte é garantir que a carga de trabalho está a funcionar conforme esperado. O Cloud TPU gera métricas e registos que lhe permitem procurar e depurar quaisquer VMs de TPU que não estejam a funcionar como esperado. Referimo-nos a estas VMs como valores atípicos ao longo desta documentação.

O fluxo de trabalho geral de resolução de problemas é o seguinte:

  1. Veja as métricas do Cloud TPU para verificar se existem VMs de TPU atípicas
  2. Veja os registos do Cloud TPU para as VMs de TPU atípicas
  3. Crie um perfil da sua carga de trabalho

Pode ver métricas e registos no Explorador de métricas e no Explorador de registos na Google Cloud consola. Também pode usar painéis de controlo de monitorização e registo para recolher todas as métricas e registos relacionados com a Cloud TPU em painéis de controlo individuais.

Métricas da VM da Cloud TPU

O Cloud Monitoring recolhe automaticamente métricas das suas TPUs e das VMs do Compute Engine do respetivo anfitrião. As métricas monitorizam quantidades numéricas ao longo do tempo, por exemplo, a utilização da CPU, a utilização da rede ou a duração de inatividade do TensorCore. Para mais informações sobre as métricas de Cloud TPU, consulte o artigo Monitorizar VMs de TPU.

Registos do Cloud TPU

O Cloud Logging recolhe automaticamente registos das suas TPUs e das VMs do Compute Engine do respetivo anfitrião. O Cloud Logging monitoriza eventos gerados pelo Cloud TPU. Também pode instrumentar o seu código para gerar registos. O Cloud TPU gera dois tipos de registos:

  • Registos do trabalhador da TPU
  • Registos de recursos auditados

Os registos do trabalhador da TPU contêm informações sobre um trabalhador da TPU específico numa zona específica, por exemplo, a quantidade de memória disponível no trabalhador da TPU (system_available_memory_GiB).

Os registos de recursos auditados contêm informações sobre quando uma API Cloud TPU específica foi chamada e quem fez a chamada. Por exemplo, CreateNode, UpdateNode e DeleteNode.

Também pode usar o pacote cloud-tpu-diagnostics PyPi para escrever rastreios de pilha nos registos. Para mais informações, consulte o artigo Depurar VMs de TPU.

Para mais informações sobre registos, consulte o artigo Registo.

Painéis de controlo de monitorização e registo

Ter uma única página na consola pode facilitar a visualização e a interpretação das métricas e dos registos relacionados com a Cloud TPU. Google Cloud O repositório GitHub monitoring-debugging contém um conjunto de scripts e ficheiros de configuração que usam o Terraform para implementar automaticamente painéis de controlo que contêm todas as métricas e registos relacionados com o Cloud TPU em painéis de controlo. Para configurar estes painéis de controlo no seu Google Cloud projeto, consulte o artigo Painéis de controlo de monitorização e registo.

Criar perfis das suas cargas de trabalho em VMs de TPU

A criação de perfis permite-lhe otimizar o desempenho da preparação do seu modelo em VMs de TPU. Usa o TensorBoard e o plug-in do TensorBoard da TPU para criar um perfil do seu modelo. Para mais informações sobre como criar um perfil da sua carga de trabalho, consulte o artigo Crie um perfil do seu modelo em VMs de TPU.

Para mais informações sobre a utilização do TensorBoard com um dos frameworks suportados, consulte os seguintes documentos: