Modelos de lenguaje extensos
-
Inferencia de MaxText de JetStream en v6e
Guía para configurar y usar JetStream con MaxText para la inferencia en la versión 6e.
-
Inferencia de PyTorch de JetStream en v6e
Guía para configurar y usar JetStream con PyTorch para la inferencia en la versión 6e.
-
Inferencia de vLLM en v6e
Guía para configurar y usar vLLM para la inferencia en v6e.
-
Sirve un LLM mediante TPUs en GKE con vLLM
Guía para usar vLLM para servir modelos de lenguaje extensos (LLMs) mediante unidades de procesamiento de tensor (TPUs) en Google Kubernetes Engine (GKE).