Large Language Models
-
JetStream MaxText-Inferenz in Version 6e
Eine Anleitung zum Einrichten und Verwenden von JetStream mit MaxText für die Inferenz in v6e.
-
JetStream-PyTorch-Inferenz auf v6e
Eine Anleitung zum Einrichten und Verwenden von JetStream mit PyTorch für die Inferenz in v6e.
-
vLLM-Inferenz auf v6e
Eine Anleitung zum Einrichten und Verwenden von vLLM für die Inferenz bei v6e.
-
LLM mithilfe von TPUs in GKE mit vLLM bereitstellen
Leitfaden zur Verwendung von vLLM zum Bereitstellen von Large Language Models (LLMs) mit Tensor Processing Units (TPUs) in der Google Kubernetes Engine (GKE)