Inferência do Cloud TPU

A disponibilização se refere ao processo de implantação de um modelo de machine learning treinado em um ambiente de produção, onde ele pode ser usado para inferência. A inferência está disponível na TPU v5e e em versões mais recentes. Os SLOs de latência são uma prioridade para a disponibilização.

Este documento explica a disponibilização de um modelo em uma TPU de host único. As frações de TPU com oito ou menos chips têm um host ou uma VM de TPU e são chamadas de TPUs de host único. Para saber mais sobre a inferência com vários hosts, consulte Realizar inferência com vários hosts usando programas de treinamentos.

Introdução

Você precisa de uma conta e de um projeto do Google Cloud para usar o Cloud TPU. Para mais informações, consulte Configurar um ambiente do Cloud TPU.

Verifique se você tem cota suficiente para o número de núcleos de TPU que planeja usar para inferência. A TPU v5e usa cotas separadas para treinamento e disponibilização. Confira abaixo as cotas específicas de disponibilização da TPU v5e:

  • Recursos on-demand da v5e: TPUv5 lite pod cores for serving per project per zone
  • Recursos preemptivos da v5e: Preemptible TPU v5 lite pod cores for serving per project per zone

Em outras versões da TPU, as cargas de trabalho de treinamento e disponibilização usam a mesma cota. Para mais informações, consulte Cotas do Cloud TPU.

Disponibilizar LLMs com o vLLM

O vLLM é uma biblioteca de código aberto criada para inferência e disponibilização rápidas de modelos de linguagem grandes (LLMs). O Cloud TPU se integra ao vLLM com o plug-in tpu-inference, que permite o uso de modelos do JAX e do PyTorch. Para saber mais, consulte o repositório do GitHub de tpu-inference.

Para exemplos de como usar o vLLM para disponibilizar um modelo em TPUs, consulte o seguinte:

Criação de perfil

Depois de configurar a inferência, use os criadores de perfis para analisar o desempenho e a utilização da TPU. Para mais informações sobre a criação de perfil, consulte: