Menjalankan inferensi LLM di GPU Cloud Run dengan Hugging Face TGI (layanan)

Contoh berikut menunjukkan cara menjalankan layanan backend yang menjalankan toolkit Hugging Face Text Generation Inference (TGI), yang merupakan toolkit untuk men-deploy dan menayangkan Large Language Model (LLM), menggunakan Llama 3.

Lihat seluruh contoh di Men-deploy Llama 3.1 8B dengan DLC TGI di Cloud Run.