vLLM을 사용하여 Cloud Run GPU에서 LLM 추론 실행

다음 Codelab은 프로덕션 시스템을 위한 추론 엔진인 vLLM과 20억 개의 파라미터 명령 조정 모델인 Google의 Gemma 2를 실행하는 백엔드 서비스를 실행하는 방법을 보여줍니다.

vLLM을 사용하여 Cloud Run GPU에서 LLM 추론 실행에서 전체 Codelab을 확인하세요.