LLM-Inferenzen auf Cloud Run-GPUs mit Hugging Face TGI (Dienste) ausführen

Das folgende Beispiel zeigt, wie Sie einen Backend-Dienst ausführen, in dem das Hugging Face TGI-Toolkit (Text Generation Inference) verwendet wird. Dieses Toolkit dient zum Erstellen und Bereitstellen von Large Language Models (LLMs) mit Llama 3.

Das vollständige Beispiel finden Sie unter Llama 3.1 8B mit TGI-DLC in Cloud Run bereitstellen.