Programación de la recopilación de TPU para cargas de trabajo de inferencia

Trillium (v6e) incluye una función llamada "programación de colecciones" que te permite agrupar un conjunto de porciones de TPU, de uno o varios hosts, destinadas a entregar réplicas del mismo modelo. Esta función está disponible para las configuraciones de Cloud TPU y GKE.

En este documento, se explica cómo usar el programa de recopilación con la API de Cloud TPU. Consulta la documentación de GKE para obtener más información sobre el uso de la programación de colecciones con GKE.

Cuando creas una colección para tu carga de trabajo de inferencia,Google Cloud limita y optimiza las interrupciones en las operaciones de las cargas de trabajo de inferencia. Esto es útil para las cargas de trabajo de inferencia en las que la alta disponibilidad es una preocupación. Google Cloud garantiza la alta disponibilidad para que la recopilación administre el tráfico entrante. Una parte de las divisiones dentro de una colección siempre está disponible para controlar el tráfico entrante.

Cada porción de TPU de una colección tendrá el mismo tipo de acelerador y topología.

La programación de la recopilación solo se aplica a la versión 6e.

Crea una colección desde la API de Cloud TPU

Cuando solicitas un recurso en cola con la API de Cloud TPU, usas la marca --workload-type = AVAILABILITY-OPTIMIZED para crear una colección. Esta marca le indica a la infraestructura de Cloud TPU que se diseñó para usarse en cargas de trabajo centradas en la disponibilidad.

El siguiente comando aprovisiona una colección con la API de Cloud TPU:

gcloud alpha compute tpus queued-resources create serving-QR \
   --project=$PROJECT_ID \
   --zone=${ZONE} \
   --accelerator-type ${ACCELERATOR_TYPE} \
   --node-count ${NODE_COUNT} \
   --node-prefix "servingTPU" \
   --workload-type = AVAILABILITY-OPTIMIZED

La marca --node-count especifica la cantidad de rebanadas que deseas en tu recurso en fila. De esta manera, se crea una colección de porciones de TPU.

Opcional: La marca --node-prefix especifica un prefijo para los nombres de las porciones.