Menjalankan inferensi LLM di GPU Cloud Run dengan vLLM (layanan)

Codelab berikut menunjukkan cara menjalankan layanan backend yang menjalankan vLLM, yang merupakan mesin inferensi untuk sistem produksi, bersama dengan Gemma 2 Google, yang merupakan model yang disesuaikan dengan petunjuk 2 miliar parameter.

Lihat seluruh codelab di Menjalankan inferensi LLM di GPU Cloud Run dengan vLLM.