Los modelos de lenguaje grandes
-
Inferencia de JetStream MaxText en v6e
Una guía para configurar y usar JetStream con MaxText para la inferencia en v6e.
-
Inferencia de JetStream PyTorch en v6e
Una guía para configurar y usar JetStream con PyTorch para la inferencia en v6e.
-
Inferencia de vLLM en v6e
Una guía para configurar y usar vLLM para la inferencia en v6e.
-
Entrega un LLM con TPU en GKE con vLLM
Una guía para usar vLLM para entregar modelos de lenguaje grandes (LLM) con unidades de procesamiento tensorial (TPU) en Google Kubernetes Engine (GKE).