Modelli linguistici di grandi dimensioni (LLM)
-
Inferenza JetStream MaxText su v6e
Una guida per configurare e utilizzare JetStream con MaxText per l'inferenza su v6e.
-
Inferenza JetStream PyTorch su v6e
Una guida per configurare e utilizzare JetStream con PyTorch per l'inferenza su v6e.
-
Inferenza vLLM su v6e
Una guida per configurare e utilizzare vLLM per l'inferenza su v6e.
-
Gestisci un LLM utilizzando TPU su GKE con vLLM
Una guida all'utilizzo di vLLM per pubblicare modelli linguistici di grandi dimensioni (LLM) utilizzando le unità di elaborazione tensoriale (TPU) su Google Kubernetes Engine (GKE).