Hugging Face TGI を使用して Cloud Run GPU で LLM 推論を実行する(サービス)

次の例は、Llama 3 を使用して大規模言語モデル(LLM)をデプロイして提供するツールキットである Hugging Face Text Generation Inference(TGI)ツールキットを実行するバックエンド サービスを実行する方法を示しています。

サンプル全体については、Cloud Run で TGI DLC を使用して Llama 3.1 8B をデプロイするをご覧ください。