GPU를 사용하여 Cloud Run에서 AI 추론을 실행합니다. AI 개념을 처음 접하는 경우 AI용 GPU를 참조하세요. GPU는 AI 모델을 학습시키고 실행하는 데 사용됩니다. 이렇게 하면 전체 사용률에 따라 워크로드를 확장할 수 있어 보다 안정적인 성능을 확보할 수 있습니다. GPU 구성에 대해 자세히 알아보려면 서비스, 작업, 작업자 풀에 대한 GPU 지원을 참조하세요.
서비스 튜토리얼
- Gemma 3 및 Ollama를 사용하여 Cloud Run GPU에서 LLM 추론 실행
- Cloud Run에서 Gemma 3 실행
- vLLM을 사용하여 Cloud Run GPU에서 LLM 추론 실행
- GPU 가속을 사용하여 Cloud Run에서 OpenCV 실행
- Hugging Face Transformers.js를 사용하여 Cloud Run GPU에서 LLM 추론 실행
- Hugging Face TGI를 사용하여 Cloud Run GPU에서 LLM 추론 실행
작업 튜토리얼
- Cloud Run 작업을 사용하여 GPU로 LLM 미세 조정
- Cloud Run 작업에서 GPU를 사용하여 일괄 추론 실행
- Cloud Run 작업에서 FFmpeg를 사용한 GPU 가속 동영상 트랜스코딩