Inferência do Cloud TPU
A publicação refere-se ao processo de implementação de um modelo de aprendizagem automática preparado num ambiente de produção, onde pode ser usado para inferência. A inferência é suportada na TPU v5e e versões mais recentes. Os SLOs de latência são uma prioridade para a publicação.
Este documento aborda a publicação de um modelo numa TPU de host único. As fatias de TPU com 8 ou menos chips têm uma VM ou um anfitrião de TPU e são denominadas TPUs de anfitrião único.
Começar
Precisa de uma Google Cloud conta e um projeto para usar o Cloud TPU. Para mais informações, consulte o artigo Configure um ambiente de TPU na nuvem.
Tem de pedir a seguinte quota para a publicação em UTPs:
- Recursos v5e a pedido:
TPUv5 lite pod cores for serving per project per zone
- Recursos v5e preemptíveis:
Preemptible TPU v5 lite pod cores for serving per project per zone
- Recursos v6e a pedido:
TPUv6 cores per project per zone
- Recursos v6e preemptíveis:
Preemptible TPUv6 cores per project per zone
Para mais informações sobre a quota de TPUs, consulte o artigo Quota de TPUs.
Publique LLMs através do JetStream
O JetStream é um motor otimizado para débito e memória para inferência de grandes modelos de linguagem (GMLs) em dispositivos XLA (TPUs). Pode usar o JetStream com modelos JAX e PyTorch/XLA. Para ver um exemplo de utilização do JetStream para publicar um LLM JAX, consulte o artigo Inferência do JetStream MaxText na TPU v6e.
Publique modelos de GML com o vLLM
O vLLM é uma biblioteca de código aberto concebida para a inferência e a publicação rápidas de grandes modelos de linguagem (GMLs). Pode usar o vLLM com o PyTorch/XLA. Para ver um exemplo de utilização do vLLM para publicar um LLM do PyTorch, consulte o artigo Publicar um LLM com o TPU Trillium no GKE com o vLLM.
Criação de perfis
Após a configuração da inferência, pode usar os perfis para analisar o desempenho e a utilização da TPU. Para mais informações sobre a criação de perfis, consulte: