Programación de la recopilación de TPU para cargas de trabajo de inferencia
Trillium (v6e) incluye una función llamada "programación de colecciones" que te permite agrupar un conjunto de porciones de TPU, de uno o varios hosts, destinadas a entregar réplicas del mismo modelo. Esta función está disponible para las configuraciones de Cloud TPU y GKE.
En este documento, se explica cómo usar el programa de recopilación con la API de Cloud TPU. Consulta la documentación de GKE para obtener más información sobre el uso de la programación de colecciones con GKE.
Cuando creas una colección para tu carga de trabajo de inferencia,Google Cloud limita y optimiza las interrupciones en las operaciones de las cargas de trabajo de inferencia. Esto es útil para las cargas de trabajo de inferencia en las que la alta disponibilidad es una preocupación. Google Cloud garantiza la alta disponibilidad para que la recopilación administre el tráfico entrante. Una parte de las divisiones dentro de una colección siempre está disponible para controlar el tráfico entrante.
Cada porción de TPU de una colección tendrá el mismo tipo de acelerador y topología.
La programación de la recopilación solo se aplica a la versión 6e.
Crea una colección desde la API de Cloud TPU
Cuando solicitas un recurso en cola con la API de Cloud TPU,
usas la marca --workload-type = AVAILABILITY-OPTIMIZED
para crear una
colección. Esta marca le indica a la infraestructura de Cloud TPU que se diseñó para usarse en cargas de trabajo centradas en la disponibilidad.
El siguiente comando aprovisiona una colección con la API de Cloud TPU:
gcloud alpha compute tpus queued-resources create serving-QR \ --project=$PROJECT_ID \ --zone=${ZONE} \ --accelerator-type ${ACCELERATOR_TYPE} \ --node-count ${NODE_COUNT} \ --node-prefix "servingTPU" \ --workload-type = AVAILABILITY-OPTIMIZED
La marca --node-count
especifica la cantidad de rebanadas que deseas en tu recurso en fila. De esta manera, se crea una colección de porciones de TPU.
Opcional: La marca --node-prefix
especifica un prefijo para los nombres de las porciones.