Menjalankan inferensi LLM di GPU Cloud Run dengan vLLM
Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Codelab berikut menunjukkan cara menjalankan layanan backend yang menjalankan vLLM, yang merupakan
mesin inferensi untuk sistem produksi, bersama dengan Gemma 2 Google, yang merupakan
model yang disesuaikan dengan petunjuk 2 miliar parameter.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-02-28 UTC."],[],[]]