Organízate con las colecciones
Guarda y clasifica el contenido según tus preferencias.
Inferencia de TPU de Cloud
El servicio se refiere al proceso de desplegar un modelo de aprendizaje automático entrenado en un entorno de producción, donde se puede usar para la inferencia. La inferencia se admite en la versión 5e de TPU y en versiones posteriores. Los SLOs de latencia son una prioridad para el servicio.
En este documento se explica cómo publicar un modelo en una TPU de un solo host. Los sectores de TPU con 8 chips o menos tienen una VM o un host de TPU y se denominan TPUs de un solo host.
Empezar
Para usar Cloud TPU, necesitas una Google Cloud cuenta y un proyecto. Para obtener más información, consulta el artículo Configurar un entorno de TPU de Cloud.
Debes solicitar la siguiente cuota para publicar contenido en TPUs:
Recursos de v5e bajo demanda: TPUv5 lite pod cores for serving per project per zone
Recursos de v5e preemptivos: Preemptible TPU v5 lite pod cores for serving per project per zone
Recursos de la versión 6e bajo demanda: TPUv6 cores per project per zone
Recursos v6e de carácter temporal: Preemptible TPUv6 cores per project per zone
Para obtener más información sobre las cuotas de TPU, consulta Cuotas de TPU.
Servir LLMs con JetStream
JetStream es un motor optimizado de rendimiento y memoria para la inferencia de modelos de lenguaje extensos (LLMs) en dispositivos XLA (TPUs). Puedes usar JetStream con modelos de JAX y PyTorch/XLA. Para ver un ejemplo de cómo usar JetStream para servir un LLM de JAX, consulta Inferencia de MaxText de JetStream en TPU v6e.
Servir modelos LLM con vLLM
vLLM es una biblioteca de código abierto diseñada para la inferencia y el servicio rápidos de modelos de lenguaje extensos (LLMs). Puedes usar vLLM con PyTorch/XLA. Para ver un ejemplo de cómo usar vLLM para servir un LLM de PyTorch, consulta Sirve un LLM mediante TPU Trillium en GKE con vLLM.
Elaboración de perfiles
Una vez que hayas configurado la inferencia, puedes usar los profilers para analizar el rendimiento y el uso de las TPU. Para obtener más información sobre la creación de perfiles, consulta los siguientes artículos:
[[["Es fácil de entender","easyToUnderstand","thumb-up"],["Me ofreció una solución al problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Es difícil de entender","hardToUnderstand","thumb-down"],["La información o el código de muestra no son correctos","incorrectInformationOrSampleCode","thumb-down"],["Me faltan las muestras o la información que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-11 (UTC)."],[],[],null,["# Cloud TPU inference\n===================\n\n| **Note:** If you are new to Cloud TPUs, see [Introduction to Cloud TPU](/tpu/docs/intro-to-tpu).\n\nServing refers to the process of deploying a trained machine learning model to a\nproduction environment, where it can be used for inference. Inference is\nsupported on TPU v5e and newer versions. Latency SLOs are a priority for serving.\n\nThis document discusses serving a model on a *single-host* TPU. TPU slices with\n8 or less chips have one TPU VM or host and are called *single-host* TPUs.\n\nGet started\n-----------\n\nYou will need a Google Cloud account and project to use Cloud TPU. For more\ninformation, see [Set up a Cloud TPU environment](/tpu/docs/setup-gcp-account).\n\nYou need to request the following quota for serving on TPUs:\n\n- On-demand v5e resources: `TPUv5 lite pod cores for serving per project per zone`\n- Preemptible v5e resources: `Preemptible TPU v5 lite pod cores for serving per project per zone`\n- On-demand v6e resources: `TPUv6 cores per project per zone`\n- Preemptible v6e resources: `Preemptible TPUv6 cores per project per zone`\n\n| **Note:** There is no v6e quota specific to serving.\n\nFor more information about TPU quota, see [TPU quota](/tpu/docs/quota).\n\nServe LLMs using JetStream\n--------------------------\n\nJetStream is a throughput and memory optimized engine for large language model\n(LLM) inference on XLA devices (TPUs). You can use JetStream with JAX and\nPyTorch/XLA models. For an example of using JetStream to serve a JAX LLM, see\n[JetStream MaxText inference on v6e TPU](/tpu/docs/tutorials/LLM/jetstream-maxtext-inference-v6e).\n\nServe LLM models with vLLM\n--------------------------\n\nvLLM is an open-source library designed for fast inference and serving of large\nlanguage models (LLMs). You can use vLLM with PyTorch/XLA. For an example of\nusing vLLM to serve a PyTorch LLM, see [Serve an LLM using TPU Trillium on GKE with vLLM](/kubernetes-engine/docs/tutorials/serve-vllm-tpu).\n\nProfiling\n---------\n\nAfter setting up inference, you can use profilers to analyze the performance and\nTPU utilization. For more information about profiling, see:\n\n- [Profiling on Cloud TPU](/tpu/docs/profile-tpu-vm)\n\n- [TensorFlow profiling](https://www.tensorflow.org/guide/profiler)\n\n- [PyTorch profiling](/tpu/docs/pytorch-xla-performance-profiling-tpu-vm)\n\n- [JAX profiling](https://jax.readthedocs.io/en/latest/profiling.html#profiling-jax-programs)"]]