Esta página foi traduzida pela API Cloud Translation.

Inferência do Cloud TPU

A publicação refere-se ao processo de implementação de um modelo de aprendizagem automática preparado num ambiente de produção, onde pode ser usado para inferência. A inferência é suportada na TPU v5e e versões mais recentes. Os SLOs de latência são uma prioridade para a publicação.

Este documento aborda a publicação de um modelo numa TPU de host único. As fatias de TPU com 8 ou menos chips têm uma VM ou um anfitrião de TPU e são denominadas TPUs de anfitrião único.

Começar

Precisa de uma Google Cloud conta e um projeto para usar o Cloud TPU. Para mais informações, consulte o artigo Configure um ambiente de TPU na nuvem.

Tem de pedir a seguinte quota para a publicação em UTPs:

Recursos v5e a pedido: TPUv5 lite pod cores for serving per project per zone
Recursos v5e preemptíveis: Preemptible TPU v5 lite pod cores for serving per project per zone
Recursos v6e a pedido: TPUv6 cores per project per zone
Recursos v6e preemptíveis: Preemptible TPUv6 cores per project per zone

Para mais informações sobre a quota de TPUs, consulte o artigo Quota de TPUs.

Publique LLMs através do JetStream

O JetStream é um motor otimizado para débito e memória para inferência de grandes modelos de linguagem (GMLs) em dispositivos XLA (TPUs). Pode usar o JetStream com modelos JAX e PyTorch/XLA. Para ver um exemplo de utilização do JetStream para publicar um LLM JAX, consulte o artigo Inferência do JetStream MaxText na TPU v6e.

Publique modelos de GML com o vLLM

O vLLM é uma biblioteca de código aberto concebida para a inferência e a publicação rápidas de grandes modelos de linguagem (GMLs). Pode usar o vLLM com o PyTorch/XLA. Para ver um exemplo de utilização do vLLM para publicar um LLM do PyTorch, consulte o artigo Publicar um LLM com o TPU Trillium no GKE com o vLLM.

Criação de perfis

Após a configuração da inferência, pode usar os perfis para analisar o desempenho e a utilização da TPU. Para mais informações sobre a criação de perfis, consulte: