이 페이지에서는 AI/ML 워크로드용 Google Kubernetes Engine (GKE)에 대해 개념적으로 간략하게 설명합니다. GKE는 Kubernetes 오픈소스 컨테이너 조정 플랫폼을 Google 관리형으로 구현한 환경입니다.
Google Kubernetes Engine은 인공지능 및 머신러닝 (AI/ML) 애플리케이션을 비롯한 모든 컨테이너화된 워크로드를 실행할 수 있는 확장 가능하고 유연하며 비용 효율적인 플랫폼을 제공합니다. 대규모 기본 모델을 학습시키든, 대규모 추론 요청을 처리하든, 포괄적인 AI 플랫폼을 빌드하든, GKE는 필요한 제어 기능과 성능을 제공합니다.
이 페이지는 AI/ML 워크로드를 실행하기 위해 확장 가능하고 자동화된 관리형 Kubernetes 솔루션을 찾는 데이터 및 AI 전문가, 클라우드 설계자, 운영자, 개발자를 대상으로 합니다. 일반적인 역할에 대해 자세히 알아보려면 일반 GKE 사용자 역할 및 태스크를 참고하세요.
GKE에서 AI/ML 워크로드 시작하기
GKE의 무료 등급을 사용하면 몇 분 내에 GKE를 탐색할 수 있습니다. 무료 등급을 사용하면 클러스터 관리 비용을 지불하지 않고도 Kubernetes를 시작할 수 있습니다.
- 다음 빠른 시작을 사용해 보세요.
- 플랫폼의 가속기 (GPU 및 TPU)를 계획하고 확보하기 위한 안내와 리소스가 포함된 AI/ML 워크로드의 가속기 소비 옵션 정보를 읽어보세요.
일반 사용 사례
GKE는 모든 AI 워크로드를 지원할 수 있는 통합 플랫폼을 제공합니다.
- AI 플랫폼 빌드: 엔터프라이즈 플랫폼 팀의 경우 GKE를 사용하면 다양한 요구사항을 충족하는 표준화된 멀티 테넌트 플랫폼을 유연하게 빌드할 수 있습니다.
- 지연 시간이 짧은 온라인 서빙: 생성형 AI 애플리케이션을 빌드하는 개발자에게 GKE와 추론 게이트웨이는 비용을 관리하면서 응답성이 뛰어난 사용자 환경을 제공하는 데 필요한 최적화된 라우팅과 자동 확장 기능을 제공합니다.
AI/ML 워크로드에 적합한 플랫폼 선택
Google Cloud 는 완전 관리형부터 완전 구성 가능형까지 ML 여정을 지원하는 다양한 AI 인프라 제품을 제공합니다. 적절한 플랫폼을 선택하는 것은 제어, 유연성, 관리 수준에 대한 구체적인 요구사항에 따라 달라집니다.
세부적인 제어, 이식성, 맞춤형 고성능 AI 플랫폼을 빌드하는 기능이 필요한 경우 GKE를 선택하세요.
- 인프라 제어 및 유연성: 인프라를 고도로 제어해야 하거나, 맞춤 파이프라인을 사용해야 하거나, 커널 수준 맞춤설정이 필요합니다.
- 대규모 학습 및 추론: GKE의 확장 및 고성능을 사용하여 매우 큰 모델을 학습하거나 지연 시간을 최소화하여 모델을 서빙하려는 경우
- 대규모 비용 효율성: GKE와 스팟 VM 및 플렉스 시작 VM의 통합을 사용하여 비용을 효과적으로 관리하여 비용 최적화를 우선시합니다.
- 이식성 및 개방형 표준: 공급업체 종속을 방지하고 Kubernetes를 사용하여 어디서나 워크로드를 실행하고 싶으며 기존 Kubernetes 전문 지식이나 멀티 클라우드 전략이 이미 있습니다.
다음 대안을 고려할 수도 있습니다.
Google Cloud 서비스 | 적합한 환경 |
---|---|
Vertex AI | 개발을 가속화하고 인프라 관리를 오프로드하는 완전 관리형 엔드 투 엔드 플랫폼입니다. MLOps 및 빠른 가치 실현에 중점을 두는 팀에 적합합니다. 자세한 내용은 자체 호스팅 GKE와 관리형 Vertex AI 중에서 AI 모델 호스팅 선택하기를 참고하세요. |
Cloud Run | 컨테이너화된 추론 워크로드를 위한 서버리스 플랫폼으로, 0으로 확장할 수 있습니다. 이벤트 기반 애플리케이션에 적합하며 소규모 모델을 비용 효율적으로 제공하는 데도 적합합니다. 비교 분석은 GKE 및 Cloud Run을 참고하세요. |
GKE가 AI/ML 워크로드를 지원하는 방식
GKE는 대규모 학습부터 지연 시간이 짧은 추론에 이르기까지 AI/ML 수명 주기의 각 단계를 간소화하고 가속화하는 특수 구성요소 모음을 제공합니다.
다음 표에는 AI/ML 워크로드 또는 운영 목표를 지원하는 GKE 기능이 요약되어 있습니다.
AI/ML 워크로드 또는 작업 | GKE 지원 방식 | 주요 특징 |
---|---|---|
추론 및 서빙 | 짧은 지연 시간, 높은 처리량, 비용 효율성으로 탄력적으로 AI 모델을 제공하도록 최적화되어 있습니다. |
|
학습 및 미세 조정 | 비용을 최소화하면서 매우 큰 모델을 효율적으로 학습시키는 데 필요한 확장성과 오케스트레이션 기능을 제공합니다. |
|
통합 AI/ML 개발 | 분산 Python 애플리케이션을 확장하기 위한 오픈소스 프레임워크인 Ray에 대한 관리형 지원 |
|
다음 단계
- GKE에서 AI/ML 워크로드를 실행하기 위한 광범위한 공식 가이드, 튜토리얼, 기타 리소스를 살펴보려면 GKE의 AI/ML 조정 포털을 방문하세요.
- GKE에서 AI/ML 워크로드에 GPU 또는 TPU와 같은 컴퓨팅 가속기를 획득하는 기법 알아보기
- GKE에서 AI/ML 모델 추론 알아보기
- GKE의 Ray 알아보기
- GKE AI Labs에서 GKE를 활용하여 AI/ML 이니셔티브를 가속화하기 위한 실험용 샘플 살펴보기