Solicitar TPUs de Cloud con inicio flexible
Flex-start para TPU de Cloud, que se basa en Dynamic Workload Scheduler, ofrece una forma flexible y rentable de acceder a los recursos de TPU para las cargas de trabajo de IA. Con la función de inicio flexible, puedes aprovisionar TPUs de forma dinámica según sea necesario durante un máximo de 7 días, sin necesidad de hacer reservas a largo plazo ni de gestionar cuotas complejas. Con Inicio flexible, envías una solicitud de aprovisionamiento de TPU que se mantiene hasta que haya capacidad disponible. Una vez que estén disponibles, las provisiones de inicio flexible ejecutarán las VMs de TPU durante el periodo que hayas especificado en tu solicitud.
El inicio flexible es una buena opción para hacer experimentos rápidos, pruebas a pequeña escala, aprovisionamiento dinámico de TPUs para cargas de trabajo de inferencia, ajuste de modelos y ejecuciones de cargas de trabajo que duren menos de 7 días. Para obtener más información sobre otras opciones de consumo de TPU, consulta las opciones de consumo de TPU de Cloud.
Puedes eliminar tus recursos de TPU en cualquier momento para dejar de recibir facturas. Para obtener más información sobre los precios de las TPU, consulta la página Precios de las TPU de Cloud.
Limitaciones
Las TPUs de Cloud de inicio flexible tienen las siguientes limitaciones:
- Puedes solicitar recursos de inicio flexible durante un máximo de 7 días.
- Flex-start admite las siguientes versiones y zonas de TPU de Cloud:
- Para usar la función de inicio flexible con TPU de Cloud, debes usar la API de recursos en cola.
Antes de empezar
Antes de solicitar las TPU de inicio flexible, debes hacer lo siguiente:
- Instalar Google Cloud CLI
- Crea un Google Cloud proyecto
- Habilitar la API de Cloud TPU
Para obtener más información, consulta Configurar el entorno de Cloud TPU.
También debes asegurarte de que tienes suficiente cuota de instancias preemptivas para usar Inicio flexible. Si necesitas más núcleos de TPU que la cantidad que te concede la cuota predeterminada, debes solicitar una asignación de cuota superior. Para obtener más información sobre los valores predeterminados y cómo solicitar más cuota, consulta Cuotas de Cloud TPU.
Solicitar TPUs de inicio flexible
Flex-start usa la API de recursos en cola de TPU para solicitar recursos de TPU de forma ordenada. Cuando el recurso solicitado esté disponible, se asignará a tu Google Cloud proyecto para que lo uses de forma inmediata y exclusiva. Una vez transcurrido el tiempo de ejecución solicitado, las VMs de TPU se eliminan y el recurso en cola pasa al estado SUSPENDED
. Para obtener más información sobre los recursos en cola, consulta Gestionar recursos en cola.
Para solicitar TPUs de inicio flexible, usa el comando gcloud alpha compute tpus queued-resources
create
con la marca --provisioning-model
definida como flex-start
y la marca --max-run-duration
definida como la duración que quieras que se ejecuten tus TPUs.
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-id=NODE_ID \ --provisioning-model=flex-start \ --max-run-duration=RUN_DURATION
Sustituye los siguientes marcadores de posición:
- QUEUED_RESOURCE_ID: ID asignado por el usuario para la solicitud de recurso en cola.
- ZONE: la zona en la que se creará la VM de TPU.
- ACCELERATOR_TYPE: especifica la versión y el tamaño de la TPU de Cloud que se va a crear. Para obtener más información sobre los tipos de aceleradores admitidos para cada versión de TPU, consulta Versiones de TPU.
- RUNTIME_VERSION: la versión de software de la TPU de Cloud.
- NODE_ID: ID asignado por el usuario de la TPU que se crea cuando se asigna la solicitud de recurso en cola.
- RUN_DURATION: cuánto tiempo deben ejecutarse las TPUs. Formatea la duración
como el número de días, horas, minutos y segundos seguido de
d
,h
,m
ys
, respectivamente. Por ejemplo, especifica72h
para una duración de 72 horas o1d2h3m4s
para una duración de 1 día, 2 horas, 3 minutos y 4 segundos. La frecuencia máxima es de 7 días.
Puedes personalizar aún más tu solicitud de recursos en cola para que se ejecute en momentos específicos con marcas adicionales:
--valid-after-duration
: la duración antes de la cual no se debe aprovisionar la TPU.--valid-after-time
: la hora antes de la cual no se debe aprovisionar la TPU.--valid-until-duration
: la duración durante la que es válida la solicitud. Si la solicitud no se ha completado en ese tiempo, caducará y pasará al estadoFAILED
.--valid-until-time
: el periodo durante el que es válida la solicitud. Si la solicitud no se ha completado para entonces, caducará y pasará al estadoFAILED
.
Para obtener más información sobre las marcas opcionales, consulta la documentación de gcloud alpha compute tpus queued-resources
create
.
Obtener el estado de una solicitud de inicio flexible
Para monitorizar el estado de tu solicitud de inicio flexible, usa la API de recursos en cola
para obtener el estado de la solicitud de recursos en cola con el comando
gcloud alpha compute tpus queued-resources describe
:
gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \ --zone ZONE
Un recurso en cola puede tener uno de los siguientes estados:
WAITING_FOR_RESOURCES
: la solicitud ha superado la validación inicial y se ha añadido a la cola.PROVISIONING
: la solicitud se ha seleccionado de la cola y se están creando las VMs de TPU.ACTIVE
: se ha completado la solicitud y las VMs de TPU están listas.FAILED
: No se ha podido completar la solicitud. Usa el comandodescribe
para obtener más información.SUSPENDING
: Se están eliminando los recursos asociados a la solicitud.SUSPENDED
: Se han eliminado los recursos asociados a la solicitud.
Para obtener más información, consulta Recuperar información de estado y de diagnóstico sobre una solicitud de recurso en cola.
Monitorizar el tiempo de ejecución de las TPUs de inicio flexible
Puedes monitorizar el tiempo de ejecución de las TPU de inicio flexible consultando la marca de tiempo de finalización de la TPU:
- Consulta los detalles de tu solicitud de recursos en cola.
Elige una de las siguientes opciones en función de si se han creado tus TPUs:
Si el recurso en cola está esperando recursos: en el resultado, consulta el campo
maxRunDuration
. Este campo especifica cuánto tiempo se ejecutarán las TPUs una vez creadas.Si se han creado las TPUs asociadas al recurso en cola: en la salida, consulta el campo
terminationTimestamp
de cada nodo del recurso en cola. Este campo especifica cuándo se cancelará la TPU.
Eliminar un recurso en cola
Para eliminar una solicitud de recursos en cola y las TPUs asociadas a ella, elimina la solicitud de recursos en cola y pasa la marca --force
al comando queued-resources
delete
:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --force
Si eliminas la TPU directamente con el comando gcloud compute tpus tpu-vm delete
, también debes eliminar el recurso en cola, como se muestra en el siguiente ejemplo.
Cuando eliminas la TPU, la solicitud de recurso en cola pasa al estado SUSPENDED
, después del cual puedes eliminarla.
Para eliminar una TPU, usa el comando gcloud compute tpus tpu-vm
delete
:
gcloud compute tpus tpu-vm delete NODE_ID \ --zone ZONE
A continuación, para eliminar el recurso en cola, usa el comando
gcloud alpha compute tpus queued-resources delete
:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --zone ZONE
Para obtener más información, consulta Eliminar una solicitud de recurso en cola.