Menjalankan inferensi LLM di GPU Cloud Run dengan vLLM (layanan)
Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Codelab berikut menunjukkan cara menjalankan layanan backend yang menjalankan vLLM, yang merupakan
mesin inferensi untuk sistem produksi, bersama dengan Gemma 2 Google, yang merupakan
model yang disesuaikan dengan petunjuk 2 miliar parameter.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Hard to understand","hardToUnderstand","thumb-down"],["Incorrect information or sample code","incorrectInformationOrSampleCode","thumb-down"],["Missing the information/samples I need","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2024-12-06 UTC."],[],[]]