Cloud Run 작업에서 GPU를 사용하여 일괄 추론 실행

Cloud Run 작업에서 Meta의 Llama 3.2-1b LLM 및 vLLM을 사용하여 일괄 추론을 실행한 다음 Cloud Run 볼륨 마운트를 사용하여 결과를 Cloud Storage에 직접 쓸 수 있습니다.

Cloud Run 작업에서 일괄 추론을 실행하는 방법에서 단계별 안내가 포함된 Codelab을 참조하세요.

달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.

최종 업데이트: 2025-10-19(UTC)