Esta página se ha traducido con Cloud Translation API.

Inferencia de TPU de Cloud

El servicio se refiere al proceso de desplegar un modelo de aprendizaje automático entrenado en un entorno de producción, donde se puede usar para la inferencia. La inferencia se admite en la versión 5e de TPU y en versiones posteriores. Los SLOs de latencia son una prioridad para el servicio.

En este documento se explica cómo publicar un modelo en una TPU de un solo host. Los sectores de TPU con 8 chips o menos tienen una VM o un host de TPU y se denominan TPUs de un solo host. Para obtener información sobre la inferencia multihost, consulta Realizar inferencias multihost con Pathways.

Empezar

Para usar Cloud TPU, necesitas una Google Cloud cuenta y un proyecto. Para obtener más información, consulta Configurar un entorno de TPU de Cloud.

Asegúrate de que tienes suficiente cuota para el número de núcleos de TPU que tienes previsto usar para la inferencia. La TPU v5e usa cuotas independientes para el entrenamiento y el servicio. Las cuotas específicas de servicio de TPU v5e son las siguientes:

Recursos de la versión 5e bajo demanda: TPUv5 lite pod cores for serving per project per zone
Recursos v5e interrumpibles: Preemptible TPU v5 lite pod cores for serving per project per zone

En otras versiones de TPU, las cargas de trabajo de entrenamiento y de servicio usan la misma cuota. Para obtener más información, consulta las cuotas de TPU de Cloud.

Servir LLMs con vLLM

vLLM es una biblioteca de código abierto diseñada para la inferencia y el servicio rápidos de modelos de lenguaje extensos (LLMs). Cloud TPU se integra con vLLM mediante el complemento tpu-inference, que admite modelos de JAX y PyTorch. Para obtener más información, consulta el tpu-inferencerepositorio de GitHub.

Para ver ejemplos de cómo usar vLLM para servir un modelo en TPUs, consulta lo siguiente:

Elaboración de perfiles

Una vez que hayas configurado la inferencia, puedes usar los profilers para analizar el rendimiento y el uso de las TPU. Para obtener más información sobre la creación de perfiles, consulta los siguientes artículos: