Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Inférence Cloud TPU
L'inférence fait référence au processus de déploiement d'un modèle de machine learning entraîné dans un environnement de production, où il peut être utilisé pour l'inférence. L'inférence est compatible avec les TPU v5e et les versions plus récentes. Les SLO de latence constituent une priorité pour la diffusion.
Ce document traite de la diffusion d'un modèle sur un TPU à hôte unique. Les tranches de TPU comportant huit puces ou moins disposent d'une VM ou d'un hôte TPU et sont appelées TPU à hôte unique.
Commencer
Vous devez disposer d'un Google Cloud compte et d'un projet pour utiliser Cloud TPU. Pour en savoir plus, consultez la page Configurer un environnement Cloud TPU.
Vous devez demander le quota suivant pour la diffusion sur des TPU:
Ressources v5e à la demande: TPUv5 lite pod cores for serving per project per zone
Ressources v5e préemptives: Preemptible TPU v5 lite pod cores for serving per project per zone
Ressources v6e à la demande: TPUv6 cores per project per zone
Ressources v6e préemptives: Preemptible TPUv6 cores per project per zone
Pour en savoir plus sur les quotas de TPU, consultez la section Quota TPU.
Livrer des LLM à l'aide de JetStream
JetStream est un moteur optimisé en termes de débit et de mémoire pour l'inférence de grands modèles de langage (LLM) sur les appareils XLA (TPU). Vous pouvez utiliser JetStream avec les modèles JAX et PyTorch/XLA. Pour obtenir un exemple d'utilisation de JetStream pour diffuser un LLM JAX, consultez la section Inférence JetStream MaxText sur TPU v6e.
Livrer des modèles LLM avec vLLM
vLLM est une bibliothèque Open Source conçue pour une inférence et une inférence rapides de grands modèles de langage (LLM). Vous pouvez utiliser vLLM avec PyTorch/XLA. Pour obtenir un exemple d'utilisation de vLLM pour diffuser un LLM PyTorch, consultez la section Exécuter un LLM en utilisant TPU Trillium sur GKE avec vLLM.
Profilage
Après avoir configuré l'inférence, vous pouvez utiliser des profileurs pour analyser les performances et l'utilisation du TPU. Pour en savoir plus sur le profilage, consultez les pages suivantes:
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[],[],null,["# Cloud TPU inference\n===================\n\n| **Note:** If you are new to Cloud TPUs, see [Introduction to Cloud TPU](/tpu/docs/intro-to-tpu).\n\nServing refers to the process of deploying a trained machine learning model to a\nproduction environment, where it can be used for inference. Inference is\nsupported on TPU v5e and newer versions. Latency SLOs are a priority for serving.\n\nThis document discusses serving a model on a *single-host* TPU. TPU slices with\n8 or less chips have one TPU VM or host and are called *single-host* TPUs.\n\nGet started\n-----------\n\nYou will need a Google Cloud account and project to use Cloud TPU. For more\ninformation, see [Set up a Cloud TPU environment](/tpu/docs/setup-gcp-account).\n\nYou need to request the following quota for serving on TPUs:\n\n- On-demand v5e resources: `TPUv5 lite pod cores for serving per project per zone`\n- Preemptible v5e resources: `Preemptible TPU v5 lite pod cores for serving per project per zone`\n- On-demand v6e resources: `TPUv6 cores per project per zone`\n- Preemptible v6e resources: `Preemptible TPUv6 cores per project per zone`\n\n| **Note:** There is no v6e quota specific to serving.\n\nFor more information about TPU quota, see [TPU quota](/tpu/docs/quota).\n\nServe LLMs using JetStream\n--------------------------\n\nJetStream is a throughput and memory optimized engine for large language model\n(LLM) inference on XLA devices (TPUs). You can use JetStream with JAX and\nPyTorch/XLA models. For an example of using JetStream to serve a JAX LLM, see\n[JetStream MaxText inference on v6e TPU](/tpu/docs/tutorials/LLM/jetstream-maxtext-inference-v6e).\n\nServe LLM models with vLLM\n--------------------------\n\nvLLM is an open-source library designed for fast inference and serving of large\nlanguage models (LLMs). You can use vLLM with PyTorch/XLA. For an example of\nusing vLLM to serve a PyTorch LLM, see [Serve an LLM using TPU Trillium on GKE with vLLM](/kubernetes-engine/docs/tutorials/serve-vllm-tpu).\n\nProfiling\n---------\n\nAfter setting up inference, you can use profilers to analyze the performance and\nTPU utilization. For more information about profiling, see:\n\n- [Profiling on Cloud TPU](/tpu/docs/profile-tpu-vm)\n\n- [TensorFlow profiling](https://www.tensorflow.org/guide/profiler)\n\n- [PyTorch profiling](/tpu/docs/pytorch-xla-performance-profiling-tpu-vm)\n\n- [JAX profiling](https://jax.readthedocs.io/en/latest/profiling.html#profiling-jax-programs)"]]