Esegui l'inferenza LLM sulle GPU Cloud Run con vLLM
Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Il seguente codelab mostra come eseguire un servizio di backend che esegue vLLM, un motore di inferenza per i sistemi di produzione, insieme a Gemma 2 di Google, un modello con 2 miliardi di parametri ottimizzato per le istruzioni.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-02-26 UTC."],[],[]]