Esta página se ha traducido con Cloud Translation API.

Programación de la recogida de métricas de TPU para cargas de trabajo de inferencia

Trillium (v6e) incluye una función llamada "programación de colecciones" que te permite agrupar un conjunto de slices de TPU, de un solo host o de varios, que se usan para publicar réplicas del mismo modelo. Esta función está disponible tanto para las configuraciones de Cloud TPU como para las de GKE.

En este documento se explica cómo usar la programación de colecciones con la API Cloud TPU. Para obtener más información sobre cómo usar la programación de recopilación con GKE, consulta la documentación de GKE.

Si creas una colección para tu carga de trabajo de inferencia,Google Cloud limitas y agilizas las interrupciones de las operaciones de las cargas de trabajo de inferencia. Esto resulta útil para las cargas de trabajo de inferencia en las que la alta disponibilidad es importante. Google Cloud asegura la alta disponibilidad de la colección para gestionar el tráfico entrante. Una parte de las rebanadas de una colección siempre está disponible para gestionar el tráfico entrante.

Cada segmento de TPU de una colección tendrá el mismo tipo de acelerador y la misma topología.

Crear una colección a partir de la API de TPU de Cloud

Cuando solicitas un recurso en cola mediante la API Cloud TPU, usas la marca --workload-type=AVAILABILITY-OPTIMIZED para crear una colección. Esta marca indica a la infraestructura de TPU de Cloud que se va a usar para cargas de trabajo centradas en la disponibilidad.

El siguiente comando aprovisiona una colección mediante la API Cloud TPU:

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

La marca --node-count especifica el número de segmentos que quieres que tenga el recurso en cola. De esta forma, se crea una colección de slices de TPU.

Opcional: La marca --node-prefix especifica un prefijo para los nombres de los segmentos.