Cloud TPU에서 vLLM TPU를 사용하여 개방형 모델 서빙

vLLM TPU는 Cloud TPU 하드웨어에 최적화된 대규모 언어 모델 (LLM)을 위한 고효율 서빙 프레임워크입니다. JAXPytorch를 단일 하위 경로로 통합하는 표현력이 풍부하고 강력한 새로운 하드웨어 플러그인인 tpu-inference로 구동됩니다.

이 프레임워크에 관한 자세한 내용은 vLLM TPU 블로그 게시물을 참고하세요.

vLLM TPU는 클릭 한 번으로 배포 및 노트북을 통해 Model Garden에서 사용할 수 있습니다.

Model Garden 시작하기

vLLM TPU 서빙 컨테이너는 Model Garden에 통합되어 있습니다. 다양한 모델의 클릭 한 번으로 배포 및 Colab Enterprise 노트북 예시를 통해 이 서빙 솔루션에 액세스할 수 있습니다.

클릭 한 번으로 배포 사용

다음 모델의 모델 카드를 통해 vLLM TPU로 커스텀 Vertex AI 엔드포인트를 배포할 수 있습니다.

단계:

  1. 모델 카드 페이지 (예: google/gemma-3-27b-it)로 이동하고 모델 배포를 클릭하여 배포 패널을 엽니다.

  2. 리소스 ID에서 배포할 모델 변형을 선택합니다.

  3. 배포할 모델 변형에 대해 설정 수정을 클릭하고 배포를 위해 머신 사양에서 vLLM TPU 옵션을 선택합니다.

  4. 패널 하단의 배포를 클릭하여 배포 프로세스를 시작합니다. 엔드포인트가 준비되면 이메일 알림이 전송됩니다.

Colab Enterprise 노트북 사용

유연성과 맞춤설정을 위해 Colab Enterprise 노트북 예시를 통해 Vertex AI SDK for Python을 사용하여 vLLM TPU로 Vertex AI 엔드포인트를 배포할 수 있습니다.

  1. Colab Enterprise에서 vLLM TPU 노트북을 엽니다.

  2. 노트북을 실행하여 vLLM TPU로 모델을 배포하고 엔드포인트에 예측 요청을 전송합니다.

Cloud TPU 할당량 요청

Model Garden에서 기본 할당량은 europe-west4 리전의 Cloud TPU v6e 칩 16개입니다. 이 할당량은 클릭 한 번으로 배포 및 Colab Enterprise 노트북 배포에 적용됩니다. 기본 할당량이 0이거나 할당량을 더 요청하려면 할당량 조정 요청을 참고하세요.