Preguntas frecuentes sobre Cloud TPU
En este documento, se incluye una lista de preguntas frecuentes sobre las Cloud TPU. Se divide en las siguientes secciones:
- Preguntas frecuentes independientes del framework: Preguntas sobre el uso de Cloud TPUs, independientemente del framework de AA que uses.
- Preguntas frecuentes sobre JAX: Preguntas sobre el uso de Cloud TPUs con JAX.
- Preguntas frecuentes sobre PyTorch: Preguntas sobre el uso de Cloud TPUs con PyTorch.
Preguntas frecuentes independientes del framework
¿Cómo verifico qué proceso está usando la TPU en una VM de Cloud TPU?
Ejecuta tpu-info
en la VM de Cloud TPU para imprimir el ID del proceso y otra información sobre el proceso que usa la TPU. Consulta las métricas admitidas y sus definiciones correspondientes.
tpu-info
El resultado de tpu-info
es similar al siguiente:
TPU Chips
┏━━━━━━━━━━━━━┳━━━━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━┓
┃ Chip ┃ Type ┃ Devices ┃ PID ┃
┡━━━━━━━━━━━━━╇━━━━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━┩
│ /dev/accel0 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel1 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel2 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel3 │ TPU v4 chip │ 1 │ 130007 │
└─────────────┴─────────────┴─────────┴────────┘
TPU Runtime Utilization
┏━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━┓
┃ Device ┃ Memory usage ┃ Duty cycle ┃
┡━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━┩
│ 0 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 1 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 2 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 3 │ 0.00 GiB / 31.75 GiB │ 0.00% │
└────────┴──────────────────────┴────────────┘
TensorCore Utilization
┏━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━┓
┃ Chip ID ┃ TensorCore Utilization ┃
┡━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━┩
│ 0 │ 0.00% │
│ 1 │ 0.00% │
│ 3 │ 0.00% │
│ 2 │ 0.00% |
└─────────┴────────────────────────┘
Buffer Transfer Latency
┏━━━━━━━━━━━━━┳━━━━━┳━━━━━┳━━━━━┳━━━━━━┓
┃ Buffer Size ┃ P50 ┃ P90 ┃ P95 ┃ P999 ┃
┡━━━━━━━━━━━━━╇━━━━━╇━━━━━╇━━━━━╇━━━━━━┩
│ 8MB+ | 0us │ 0us │ 0us │ 0us |
└─────────────┴─────┴─────┴─────┴──────┘
¿Cómo agrego un volumen de disco persistente a una VM de Cloud TPU?
Para obtener más información, consulta Agrega un disco persistente a una VM de TPU.
¿Qué opciones de almacenamiento se admiten o recomiendan para el entrenamiento con VMs de TPU?
Para obtener más información, consulta Opciones de almacenamiento de Cloud TPU.
Preguntas frecuentes sobre JAX
¿Cómo sé si mi programa está usando la TPU?
Hay varias formas de verificar que JAX esté usando la TPU:
Usa la función
jax.devices()
. Por ejemplo:assert jax.devices()[0].platform == 'tpu'
Perfila tu programa y verifica que el perfil contenga operaciones de TPU. Para obtener más información, consulta Cómo generar perfiles de programas de JAX.
Para obtener más información, consulta las Preguntas frecuentes sobre JAX.
Preguntas frecuentes sobre PyTorch
¿Cómo sé si mi programa está usando la TPU?
Puedes ejecutar los siguientes comandos de Python:
>>> import torch_xla.core.xla_model as xm
>>> xm.get_xla_supported_devices(devkind="TPU")
Verifica si puedes ver algún dispositivo TPU.