Les grands modèles de langage
-
Inférence JetStream MaxText sur v6e
Guide de configuration et d'utilisation de JetStream avec MaxText pour l'inférence sur v6e.
-
Inférence JetStream PyTorch sur v6e
Guide de configuration et d'utilisation de JetStream avec PyTorch pour l'inférence sur v6e.
-
Inférence vLLM sur v6e
Guide de configuration et d'utilisation de vLLM pour l'inférence sur v6e.
-
Diffuser un LLM à l'aide de TPU sur GKE avec vLLM
Guide d'utilisation de vLLM pour diffuser des grands modèles de langage (LLM) à l'aide de TPU (Tensor Processing Units) sur Google Kubernetes Engine (GKE).