HuggingFace는 선행 학습된 모델, 미세 조정 스크립트, 개발 API를 제공하여 LLM을 만들고 찾는 프로세스를 더 쉽게 만듭니다. Model Garden은 HuggingFace에서 텍스트 임베딩 추론, 정규 Pytorch 추론, 텍스트 생성 추론 모델을 지원할 수 있습니다.
Hugging Face 모델의 배포 옵션
Vertex AI 또는 Google Kubernetes Engine(GKE)에서 지원되는 Hugging Face 모델을 배포할 수 있습니다. 선택하는 배포 옵션은 사용 중인 모델과 원하는 워크로드 제어 수준에 따라 다를 수 있습니다.
Vertex AI에 배포
Vertex AI는 사내 MLOps 전문 지식 없이도 머신러닝 프로젝트를 빌드 및 확장할 수 있는 관리형 플랫폼을 제공합니다. Vertex AI를 Hugging Face 모델을 제공하는 다운스트림 애플리케이션으로 사용할 수 있습니다. 엔드 투 엔드 MLOps 역량, 고급형 ML 기능, 간소화된 개발을 위한 서버리스 환경이 필요한 경우 Vertex AI를 사용하는 것이 좋습니다.
Vertex AI에서 지원되는 Hugging Face 모델을 배포하려면 Model Garden으로 이동합니다.
Hugging Face의 오픈소스 모델 섹션으로 이동하고 자세히 보기를 클릭합니다.
배포할 모델을 찾아서 선택합니다.
선택사항: 배포 환경에 대해 Vertex AI를 선택합니다.
선택사항: 배포 세부정보를 지정합니다.
배포를 클릭합니다.
시작하려면 다음 예시를 참조하세요.
- 일부 모델에는 자세한 모델 카드와 Google에서 확인된 배포 설정이 포함됩니다(예: google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf, mistralai/Mistral-7B-v0.1, BAAI/bge-m3, intfloat/multilingual-e5-large-instruct, stabilityai/stable-diffusion-2-1, HuggingFaceFW/fineweb-edu-classifier).
- 일부 모델에는 Google에서 확인된 배포 설정이 포함되지만 NousResearch/Genstruct-7B와 같은 세부 모델 카드가 없습니다.
- 일부 모델에는 ai4bharat/Airavata와 같은 자동으로 생성된 배포 설정이 포함됩니다.
- 일부 모델에는 텍스트 생성, 텍스트 임베딩, 텍스트 이미지 변환 생성의 최신 인기 모델과 같은 모델 메타데이터에 기반한 자동 생성 배포 설정이 포함됩니다.
GKE에 배포
Google Kubernetes Engine(GKE)은 확장성, 보안, 복원력, 비용 효율성을 제공하는 관리형 Kubernetes용 Google Cloud 솔루션입니다. Kubernetes를 이미 도입했거나 조직 내부에 MLOps 전문가가 있거나 특별한 보안, 데이터 파이프라인, 리소스 관리 요구사항에 따라 복잡한 AI/ML 워크로드를 세밀하게 제어해야 하는 경우 이 옵션을 사용하는 것이 좋습니다.
GKE에서 지원되는 Hugging Face 모델을 배포하려면 Model Garden으로 이동합니다.
Hugging Face의 오픈소스 모델 섹션으로 이동하고 자세히 보기를 클릭합니다.
배포할 모델을 찾아서 선택합니다.
배포 환경에서 GKE를 선택합니다.
배포 안내를 따르세요.
시작하려면 다음 예시를 참조하세요.
- 일부 모델에는 자세한 모델 카드와 확인된 배포 설정이 있습니다(예: google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf, mistralai/Mistral-7B-v0.1)
- 일부 모델에는 확인된 배포 설정이 있지만 NousResearch/Genstruct-7B와 같은 자세한 모델 카드가 없습니다.