Perguntas frequentes – Cloud TPU
Este documento contém uma lista de Perguntas frequentes sobre as TPUs na nuvem. Está dividido em secções:
- Perguntas frequentes independentes da framework: perguntas sobre a utilização de TPUs na nuvem, independentemente da framework de ML que estiver a usar.
- Perguntas frequentes sobre o JAX: perguntas sobre a utilização de TPUs na nuvem com o JAX.
- Perguntas frequentes sobre o PyTorch: perguntas sobre a utilização de TPUs na nuvem com o PyTorch.
Perguntas frequentes independentes da framework
Como posso verificar que processo está a usar a TPU numa VM da Cloud TPU?
Execute tpu-info
na VM do TPU para imprimir o ID do processo e outras informações sobre o processo que usa o TPU. Consulte as métricas suportadas e as respetivas definições.
tpu-info
A saída de tpu-info
é semelhante à seguinte:
TPU Chips
┏━━━━━━━━━━━━━┳━━━━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━┓
┃ Chip ┃ Type ┃ Devices ┃ PID ┃
┡━━━━━━━━━━━━━╇━━━━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━┩
│ /dev/accel0 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel1 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel2 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel3 │ TPU v4 chip │ 1 │ 130007 │
└─────────────┴─────────────┴─────────┴────────┘
TPU Runtime Utilization
┏━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━┓
┃ Device ┃ Memory usage ┃ Duty cycle ┃
┡━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━┩
│ 0 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 1 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 2 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 3 │ 0.00 GiB / 31.75 GiB │ 0.00% │
└────────┴──────────────────────┴────────────┘
TensorCore Utilization
┏━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━┓
┃ Chip ID ┃ TensorCore Utilization ┃
┡━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━┩
│ 0 │ 0.00% │
│ 1 │ 0.00% │
│ 3 │ 0.00% │
│ 2 │ 0.00% |
└─────────┴────────────────────────┘
Buffer Transfer Latency
┏━━━━━━━━━━━━━┳━━━━━┳━━━━━┳━━━━━┳━━━━━━┓
┃ Buffer Size ┃ P50 ┃ P90 ┃ P95 ┃ P999 ┃
┡━━━━━━━━━━━━━╇━━━━━╇━━━━━╇━━━━━╇━━━━━━┩
│ 8MB+ | 0us │ 0us │ 0us │ 0us |
└─────────────┴─────┴─────┴─────┴──────┘
Como posso adicionar um volume de disco persistente a uma VM da Cloud TPU?
Para mais informações, consulte o artigo Adicione um disco persistente a uma VM de TPU.
Que opções de armazenamento são suportadas ou recomendadas para a preparação com a VM de TPU?
Para mais informações, consulte as opções de armazenamento do Cloud TPU.
Perguntas frequentes sobre o JAX
Como posso saber se a TPU está a ser usada pelo meu programa?
Existem algumas formas de verificar se o JAX está a usar a TPU:
Use a função
jax.devices()
. Por exemplo:assert jax.devices()[0].platform == 'tpu'
Crie um perfil do seu programa e verifique se o perfil contém operações de TPU. Para mais informações, consulte o artigo Criar perfis de programas JAX
Para mais informações, consulte as Perguntas frequentes sobre o JAX
Perguntas frequentes sobre o PyTorch
Como posso saber se a TPU está a ser usada pelo meu programa?
Pode executar os seguintes comandos Python:
>>> import torch_xla.core.xla_model as xm
>>> xm.get_xla_supported_devices(devkind="TPU")
Verifique se consegue ver algum dispositivo TPU.