LLM-Inferenzen auf Cloud Run-GPUs mit Hugging Face TGI ausführen

Das folgende Beispiel zeigt, wie Sie einen Backend-Dienst ausführen, in dem das Hugging Face TGI-Toolkit (Text Generation Inference) verwendet wird. Dieses Toolkit dient zum Erstellen und Bereitstellen von Large Language Models (LLMs) mit Llama 3.

Das vollständige Beispiel finden Sie unter Llama 3.1 8B mit TGI-DLC in Cloud Run bereitstellen.

Sofern nicht anders angegeben, sind die Inhalte dieser Seite unter der Creative Commons Attribution 4.0 License und Codebeispiele unter der Apache 2.0 License lizenziert. Weitere Informationen finden Sie in den Websiterichtlinien von Google Developers. Java ist eine eingetragene Marke von Oracle und/oder seinen Partnern.

Zuletzt aktualisiert: 2025-10-19 (UTC).