Hugging Face TGI(서비스)를 사용하여 Cloud Run GPU에서 LLM 추론 실행

다음 예에서는 Llama 3를 사용하여 대규모 언어 모델(LLM)을 배포하고 제공하기 위한 툴킷인 Hugging Face 텍스트 생성 추론(TGI) 툴킷을 실행하는 백엔드 서비스를 실행하는 방법을 보여줍니다.

Cloud Run에 TGI DLC가 포함된 Llama 3.1 8B 배포에서 전체 예시를 확인하세요.