Inferência do Cloud TPU
A disponibilização se refere ao processo de implantação de um modelo de machine learning treinado em um ambiente de produção, onde ele pode ser usado para inferência. A inferência está disponível na TPU v5e e em versões mais recentes. Os SLOs de latência são uma prioridade para a disponibilização.
Este documento explica a disponibilização de um modelo em uma TPU de host único. As frações de TPU com oito ou menos chips têm um host ou uma VM de TPU e são chamadas de TPUs de host único. Para saber mais sobre a inferência com vários hosts, consulte Realizar inferência com vários hosts usando programas de treinamentos.
Introdução
Você precisa de uma conta e de um projeto do Google Cloud para usar o Cloud TPU. Para mais informações, consulte Configurar um ambiente do Cloud TPU.
Verifique se você tem cota suficiente para o número de núcleos de TPU que planeja usar para inferência. A TPU v5e usa cotas separadas para treinamento e disponibilização. Confira abaixo as cotas específicas de disponibilização da TPU v5e:
- Recursos on-demand da v5e:
TPUv5 lite pod cores for serving per project per zone - Recursos preemptivos da v5e:
Preemptible TPU v5 lite pod cores for serving per project per zone
Em outras versões da TPU, as cargas de trabalho de treinamento e disponibilização usam a mesma cota. Para mais informações, consulte Cotas do Cloud TPU.
Disponibilizar LLMs com o vLLM
O vLLM é uma biblioteca de código aberto criada para
inferência e disponibilização rápidas de modelos de linguagem grandes (LLMs). O Cloud TPU se integra
ao vLLM com o plug-in tpu-inference, que permite o uso de
modelos do JAX e do PyTorch. Para saber mais, consulte o
repositório do GitHub de tpu-inference.
Para exemplos de como usar o vLLM para disponibilizar um modelo em TPUs, consulte o seguinte:
- Introdução ao uso de TPUs com o vLLM
- Disponibilizar um LLM usando a TPU Trillium no GKE com o vLLM
- Receitas para disponibilizar o vLLM em TPUs Trillium (v6e)
Criação de perfil
Depois de configurar a inferência, use os criadores de perfis para analisar o desempenho e a utilização da TPU. Para mais informações sobre a criação de perfil, consulte:
- Criação de perfil no Cloud TPU
- Criação de perfil do TensorFlow
- Criação de perfil do PyTorch
- Criação de perfil do JAX