대규모 언어 모델
-
v6e에서 JetStream MaxText 추론
v6e에서 추론을 위해 MaxText와 함께 JetStream을 설정하고 사용하는 방법을 안내하는 가이드
-
v6e에서 JetStream PyTorch 추론
v6e에서 추론을 위해 PyTorch와 함께 JetStream을 설정하고 사용하는 방법을 안내하는 가이드
-
v6e에서 vLLM 추론
v6e에서 추론을 수행하기 위한 vLLM 설정 및 사용 가이드
-
vLLM을 사용하여 GKE에서 TPU로 LLM 서빙
Google Kubernetes Engine(GKE)에서 Tensor Processing Unit(TPU)을 사용해 대규모 언어 모델(LLM)을 서빙하기 위한 vLLM 사용 가이드