GKE의 AI/ML 워크로드 소개

이 페이지에서는 AI/ML 워크로드용 Google Kubernetes Engine (GKE)에 대해 개념적으로 간략하게 설명합니다. GKE는 Kubernetes 오픈소스 컨테이너 조정 플랫폼을 Google 관리형으로 구현한 환경입니다.

Google Kubernetes Engine은 인공지능 및 머신러닝 (AI/ML) 애플리케이션을 비롯한 모든 컨테이너화된 워크로드를 실행할 수 있는 확장 가능하고 유연하며 비용 효율적인 플랫폼을 제공합니다. 대규모 기본 모델을 학습시키든, 대규모 추론 요청을 처리하든, 포괄적인 AI 플랫폼을 빌드하든, GKE는 필요한 제어 기능과 성능을 제공합니다.

이 페이지는 AI/ML 워크로드를 실행하기 위해 확장 가능하고 자동화된 관리형 Kubernetes 솔루션을 찾는 데이터 및 AI 전문가, 클라우드 설계자, 운영자, 개발자를 대상으로 합니다. 일반적인 역할에 대해 자세히 알아보려면 일반 GKE 사용자 역할 및 태스크를 참고하세요.

GKE에서 AI/ML 워크로드 시작하기

GKE의 무료 등급을 사용하면 몇 분 내에 GKE를 탐색할 수 있습니다. 무료 등급을 사용하면 클러스터 관리 비용을 지불하지 않고도 Kubernetes를 시작할 수 있습니다.

  1. Google Cloud 콘솔에서 시작하기

  2. 다음 빠른 시작을 사용해 보세요.
    • GKE의 추론: 사전 정의된 아키텍처를 사용하여 추론을 위해 GKE에 AI 대규모 언어 모델 (LLM)을 배포합니다.
    • GKE에서 학습: GKE에 AI 학습 모델을 배포하고 Cloud Storage에 예측을 저장합니다.
  3. 플랫폼의 가속기 (GPU 및 TPU)를 계획하고 확보하기 위한 안내와 리소스가 포함된 AI/ML 워크로드의 가속기 소비 옵션 정보를 읽어보세요.

일반 사용 사례

GKE는 모든 AI 워크로드를 지원할 수 있는 통합 플랫폼을 제공합니다.

  • AI 플랫폼 빌드: 엔터프라이즈 플랫폼 팀의 경우 GKE를 사용하면 다양한 요구사항을 충족하는 표준화된 멀티 테넌트 플랫폼을 유연하게 빌드할 수 있습니다.
  • 지연 시간이 짧은 온라인 서빙: 생성형 AI 애플리케이션을 빌드하는 개발자에게 GKE와 추론 게이트웨이는 비용을 관리하면서 응답성이 뛰어난 사용자 환경을 제공하는 데 필요한 최적화된 라우팅과 자동 확장 기능을 제공합니다.

AI/ML 워크로드에 적합한 플랫폼 선택

Google Cloud 는 완전 관리형부터 완전 구성 가능형까지 ML 여정을 지원하는 다양한 AI 인프라 제품을 제공합니다. 적절한 플랫폼을 선택하는 것은 제어, 유연성, 관리 수준에 대한 구체적인 요구사항에 따라 달라집니다.

권장사항:

세부적인 제어, 이식성, 맞춤형 고성능 AI 플랫폼을 빌드하는 기능이 필요한 경우 GKE를 선택하세요.

  • 인프라 제어 및 유연성: 인프라를 고도로 제어해야 하거나, 맞춤 파이프라인을 사용해야 하거나, 커널 수준 맞춤설정이 필요합니다.
  • 대규모 학습 및 추론: GKE의 확장 및 고성능을 사용하여 매우 큰 모델을 학습하거나 지연 시간을 최소화하여 모델을 서빙하려는 경우
  • 대규모 비용 효율성: GKE와 스팟 VM 및 플렉스 시작 VM의 통합을 사용하여 비용을 효과적으로 관리하여 비용 최적화를 우선시합니다.
  • 이식성 및 개방형 표준: 공급업체 종속을 방지하고 Kubernetes를 사용하여 어디서나 워크로드를 실행하고 싶으며 기존 Kubernetes 전문 지식이나 멀티 클라우드 전략이 이미 있습니다.

다음 대안을 고려할 수도 있습니다.

Google Cloud 서비스 적합한 환경
Vertex AI 개발을 가속화하고 인프라 관리를 오프로드하는 완전 관리형 엔드 투 엔드 플랫폼입니다. MLOps 및 빠른 가치 실현에 중점을 두는 팀에 적합합니다. 자세한 내용은 자체 호스팅 GKE와 관리형 Vertex AI 중에서 AI 모델 호스팅 선택하기를 참고하세요.
Cloud Run 컨테이너화된 추론 워크로드를 위한 서버리스 플랫폼으로, 0으로 확장할 수 있습니다. 이벤트 기반 애플리케이션에 적합하며 소규모 모델을 비용 효율적으로 제공하는 데도 적합합니다. 비교 분석은 GKE 및 Cloud Run을 참고하세요.

GKE가 AI/ML 워크로드를 지원하는 방식

GKE는 대규모 학습부터 지연 시간이 짧은 추론에 이르기까지 AI/ML 수명 주기의 각 단계를 간소화하고 가속화하는 특수 구성요소 모음을 제공합니다.

다음 다이어그램에서 GKE는 Google Cloud내에 있으며 Cloud Storage FUSE, Managed Lustre와 같은 다양한 클라우드 스토리지 옵션과 Cloud TPU, Cloud GPU와 같은 다양한 클라우드 인프라 옵션을 사용할 수 있습니다. GKE는 딥 러닝 (예: JAX 또는 TensorFlow), ML 오케스트레이션 (예: Jupyter 또는 Ray), LLM 추론(예: vLLM 또는 NVIDIA Dynamo)을 위한 오픈소스 소프트웨어 및 프레임워크와도 호환됩니다.
그림 1: AI/ML 워크로드를 위한 확장 가능한 관리형 플랫폼으로서의 GKE

다음 표에는 AI/ML 워크로드 또는 운영 목표를 지원하는 GKE 기능이 요약되어 있습니다.

AI/ML 워크로드 또는 작업 GKE 지원 방식 주요 특징
추론 및 서빙 짧은 지연 시간, 높은 처리량, 비용 효율성으로 탄력적으로 AI 모델을 제공하도록 최적화되어 있습니다.
  • 가속기 유연성: GKE는 추론을 위해 GPUTPU를 모두 지원합니다.
  • GKE Inference Gateway: AI 추론 워크로드에 특화된 지능형 라우팅 및 부하 분산을 제공하는 모델 인식 게이트웨이입니다.
  • GKE Inference Quickstart: 인기 있는 AI 모델의 벤치마킹된 프로필 세트를 제공하여 성능 분석 및 배포를 간소화하는 도구입니다.
  • GKE Autopilot: 클러스터 작업 및 용량 적정화를 자동화하여 오버헤드를 줄이는 GKE 작업 모드입니다.
학습 및 미세 조정 비용을 최소화하면서 매우 큰 모델을 효율적으로 학습시키는 데 필요한 확장성과 오케스트레이션 기능을 제공합니다.
  • 더 빠른 노드 시작: 노드 시작 시간을 최대 80%까지 줄여주는 GPU 워크로드 전용 최적화입니다.
  • 동적 워크로드 스케줄러를 기반으로 하는 flex-start 프로비저닝 모드: 단기 학습 워크로드에 대해 부족한 GPU 및 TPU 액셀러레이터를 확보하는 기능을 개선합니다.
  • Kueue: 일괄 워크로드의 리소스 할당, 예약, 할당량 관리, 우선순위 지정을 관리하는 Kubernetes 기반 작업 큐 시스템입니다.
  • TPU 멀티슬라이스: 여러 TPU 슬라이스가 데이터 센터 네트워크 (DCN)를 통해 서로 통신하여 대규모 학습을 달성할 수 있도록 지원하는 하드웨어 및 네트워킹 아키텍처입니다.
통합 AI/ML 개발 분산 Python 애플리케이션을 확장하기 위한 오픈소스 프레임워크인 Ray에 대한 관리형 지원
  • GKE의 Ray 부가기능: Kubernetes 인프라를 추상화하여 최소한의 코드 변경으로 대규모 데이터 전처리, 분산 학습, 온라인 제공과 같은 워크로드를 확장할 수 있습니다.

다음 단계