GKE에서 AI/ML 모델 추론을 위한 부하 분산 전략 선택


이 페이지는 Google Kubernetes Engine (GKE)에서 AI/ML 모델 추론 워크로드에 적합한 부하 분산 전략을 선택하는 데 도움이 됩니다.

이 페이지는 다음 페르소나를 대상으로 합니다.

  • AI/ML 워크로드를 서빙하기 위해 Kubernetes 컨테이너 조정 기능을 사용하는 데 관심이 있는 머신러닝 (ML) 엔지니어, 플랫폼 관리자 및 운영자, 데이터 및 AI 전문가
  • Kubernetes 네트워킹과 상호작용하는 클라우드 설계자 및 네트워킹 전문가

Google Cloud 콘텐츠에서 참조하는 일반적인 역할 및 예시 태스크에 대해 자세히 알아보려면 일반 GKE 사용자 역할 및 태스크를 참조하세요.

이 페이지를 읽기 전에 다음 내용을 숙지해야 합니다.

Google Kubernetes Engine (GKE)에 AI/ML 모델 추론 워크로드를 배포할 때 적절한 부하 분산 전략을 선택하여 성능, 확장성, 비용 효율성을 최적화하세요. Google Cloud 에서는 다음과 같은 고유한 솔루션을 제공합니다.

  • GKE 추론 게이트웨이: 고급 AI/ML 라우팅을 위해 빌드된 솔루션입니다. 자세한 내용은 GKE Inference Gateway 문서를 참고하세요.
  • 커스텀 측정항목이 있는 GKE Gateway: 애플리케이션 부하 분산기를 사용하여 범용 제어를 제공하는 솔루션으로, 애플리케이션 부하 분산기와 결합할 수 있습니다.

부하 분산 솔루션 결합

일부 아키텍처에서는 맞춤 측정항목과 함께 GKE 추론 게이트웨이와 GKE 게이트웨이를 모두 사용할 수 있습니다. 이러한 아키텍처에서는 맞춤 측정항목이 있는 GKE 게이트웨이와 함께 애플리케이션 부하 분산기가 사용됩니다. 예를 들어 전역 외부 애플리케이션 부하 분산기는 지리적 위치, 상태 점검과 같은 요소를 기반으로 적절한 리전으로 트래픽을 전달합니다. 자세한 내용은 애플리케이션 부하 분산기를 참고하세요. 트래픽이 특정 리전에 도달하면 GKE Inference Gateway는 세부적인 AI 인식 부하 분산을 실행하여 요청을 최적의 모델 서버로 라우팅합니다. 자세한 내용은 GKE Inference Gateway 문서를 참고하세요.

GKE에서 추론 애플리케이션에 가장 적합한 Google Cloud 부하 분산 솔루션을 선택하려면 워크로드 특성, 성능 요구사항, 운영 모델을 고려하세요.

가장 적합하고 부하가 가장 적은 모델 서버 복제본으로 트래픽을 전달하기 위해 GKE 추론 게이트웨이의 엔드포인트 선택기 확장 프로그램은 중요한 AI 관련 측정항목을 모니터링합니다. 이러한 측정항목에는 모델 서버 KV 캐시 사용률, 대기 중인 요청 대기열 길이, 전체 GPU 또는 TPU 로드, LoRA 어댑터 가용성, 개별 요청의 계산 비용이 포함됩니다. 정교한 라우팅 외에도 GKE 추론 게이트웨이는 모델 서버에 요청 우선순위 지정 및 최적화된 자동 확장 기능을 제공합니다.

커스텀 측정항목이 포함된 GKE Gateway 개요

전역 외부 애플리케이션 부하 분산기 및 리전 외부 애플리케이션 부하 분산기와 같은 애플리케이션 부하 분산기는 백엔드 서비스에서 보고하는 맞춤 측정항목을 기반으로 트래픽을 분산하는 범용 부하 분산기입니다. 이 기능을 사용하면 애플리케이션별 성능 지표에 따라 부하 분산을 세부적으로 제어할 수 있습니다.

GKE 게이트웨이는 애플리케이션 부하 분산기를 프로비저닝하고 관리하기 위한 Kubernetes 네이티브 인터페이스 역할을 합니다. 기본적으로 GKE 클러스터에서 게이트웨이 리소스를 정의하면 GKE 게이트웨이 컨트롤러가 기본 애플리케이션 부하 분산기를 자동으로 구성하여 Google Cloud의 부하 분산 인프라를 사용하는 동시에 Kubernetes에서 직접 GKE 서비스로의 외부 HTTP/HTTPS 트래픽을 관리하는 간소화된 방법을 제공합니다.

부하 분산 솔루션 비교

다음 표에서는 GKE 추론 게이트웨이와 맞춤 측정항목이 있는 GKE 게이트웨이의 기능을 비교합니다.

기능 추론 게이트웨이 애플리케이션 부하 분산기를 사용하는 맞춤 측정항목이 있는 GKE Gateway
기본 사용 사례 대규모 언어 모델 (LLM) 서빙과 같은 Kubernetes의 생성형 AI/ML 추론 워크로드를 최적화합니다. 단일 모델에서 여러 사용 사례를 제공하고, 모델 리소스에 대한 공정한 액세스를 보장하며, 지연 시간에 민감한 GPU/TPU 기반 LLM 워크로드를 최적화하는 데 적합합니다. 맞춤 애플리케이션 보고 측정항목(부하 신호)을 기반으로 정확한 트래픽 분산이 필요한 워크로드에 범용 HTTP (S) 부하 분산을 제공합니다. 맞춤 사용률 데이터를 보고하는 실시간 게임 서버 또는 고빈도 거래 플랫폼과 같은 지연 시간에 민감한 서비스에 적합합니다.
기본 라우팅 호스트 및 경로별 표준 HTTP(S) 라우팅을 지원하여 GKE Gateway API를 확장합니다. GKE Gateway API의 표준 리소스를 사용하여 구성된 호스트 및 경로별 표준 HTTP(S) 라우팅을 지원합니다.
고급 라우팅 로직 모델 인식 라우팅 (예: 본문 기반 모델 이름), 트래픽 분할, 미러링을 실행하고 우선순위 및 중요도 수준을 적용합니다. Open Request Cost Aggregation (ORCA) 표준을 사용하여 애플리케이션에서 보고한 맞춤 측정항목을 기반으로 트래픽을 분산합니다. 이를 통해 지역 내 엔드포인트 가중치에 WEIGHTED_ROUND_ROBIN와 같은 정책을 사용할 수 있습니다.
지원되는 측정항목 GPU/TPU 사용률, `KV 캐시 적중`, `요청 대기열 길이`와 같이 바로 사용할 수 있는 AI 전용 기본 제공 신호 모음을 사용합니다. 표준화된 HTTP 헤더 메커니즘을 사용하여 전송된 애플리케이션 보고 측정항목을 사용하도록 구성할 수도 있습니다. 표준화된 HTTP 헤더 메커니즘을 사용하여 애플리케이션에서 보고한 측정항목에 의존합니다. 이 메커니즘을 _ORCA 부하 보고_라고 합니다. 이 형식을 사용하면 CPU 및 메모리와 같은 표준 측정항목이나 애플리케이션별 제한된 리소스의 맞춤 이름 측정항목을 보고할 수 있습니다.
요청 처리 LLM에서 흔히 발생하는 불균일한 요청 비용을 낮춥니다. 요청 [심각도 수준](/kubernetes-engine/docs/concepts/about-gke-inference-gateway#traffic-distribution)을 지원합니다. 상대적으로 균일한 요청 비용에 최적화되어 있습니다. 기본 제공 요청 우선순위 지정이 포함되지 않습니다.
LoRa 어댑터 지원 적절한 LoRa 지원 백엔드에 어피니티 기반 네이티브 라우팅을 제공합니다. 기본 지원을 제공하지 않습니다.
자동 확장 통합 `KV 캐시 적중`과 같은 AI 관련 측정항목을 기반으로 모델 서버의 확장성을 최적화합니다. 수평형 포드 자동 확장 처리 (HPA)는 커스텀 측정항목을 사용할 수 있지만 설정은 Application Load Balancer에 보고된 측정항목을 기반으로 일반적입니다.
설정 및 구성하기 GKE Gateway API로 구성합니다. AI 인식 기능을 지원하기 위해 특수 InferencePoolInferenceModel 커스텀 리소스 정의 (CRD)로 표준 API를 확장합니다. GKE Gateway API의 표준 리소스로 구성합니다. 애플리케이션은 HTTP 헤더 기반 메커니즘을 구현하여 맞춤 측정항목을 보고해야 합니다.
보안 게이트웨이에서 Model Armor를 사용한 AI 콘텐츠 필터링을 제공합니다. TLS, IAM, 역할 기반 액세스 제어 (RBAC), 네임스페이스와 같은 기본적인 GKE 보안 기능을 활용합니다. 모델 아머, TLS 종료, IAM을 비롯한 표준 애플리케이션 부하 분산기 보안 스택을 사용합니다. 서비스 확장 프로그램으로 통합하여 Model Armor를 지원할 수도 있습니다.
관측 가능성 GPU 또는 TPU 사용률, `KV 캐시 적중`, `요청 대기열 길이`, 모델 지연 시간 등 AI 관련 측정항목에 대한 기본 제공 관측 가능성을 제공합니다. 관측 가능성은 애플리케이션이 보고하도록 구성된 맞춤 측정항목에 따라 달라집니다. Cloud Monitoring에서 이러한 측정항목을 볼 수 있습니다. 여기에는 표준 또는 맞춤 이름 지정 측정항목이 포함될 수 있습니다.
확장성 사용자 관리형 엔드포인트 선택기 알고리즘을 지원하는 확장 가능한 오픈소스 기반으로 빌드되었습니다. 일반적인 AI/ML 사용 사례를 간소화하기 위해 특수화된 커스텀 리소스 정의 (InferencePool, InferenceModel)로 GKE Gateway API를 확장합니다. 유연성을 위해 설계되어 애플리케이션이 ORCA 표준을 사용하여 보고할 수 있는 모든 맞춤 측정항목 (부하 신호)으로 부하 분산을 확장할 수 있습니다.
출시 단계 미리보기 GA

GKE 추론 게이트웨이를 사용해야 하는 경우

GKE 추론 게이트웨이를 사용하여 GKE에서 정교한 AI/ML 추론 워크로드(특히 LLM)를 최적화합니다.

다음과 같은 작업을 해야 하는 경우 GKE 추론 게이트웨이를 선택하세요.

  • 모델 인식 라우팅: KV 캐시 적중 또는 요청 대기열 길이와 같은 LLM별 상태를 기반으로 트래픽을 특정 LoRA 어댑터로 직접 전송합니다.
  • 비용 인식 부하 분산: 처리 비용이 가변적인 추론 요청을 효율적으로 처리하고 중요도 수준(중요, 표준, 삭제 가능)에 따라 우선순위를 지정합니다.
  • AI 전용 자동 확장: 최적의 리소스 사용을 위해 관련 AI 측정항목에 따라 모델 서버를 동적으로 확장합니다.
  • 기본 제공 AI 안전 및 관측 가능성: 기본 Model Armor 통합을 사용하여 AI 안전 검사를 실행하고 GPU/TPU 사용률, KV 캐시 적중, 요청 대기열 길이에 관한 즉시 사용 가능한 통계를 확인합니다.
  • 간소화된 생성형 AI 배포: GKE의 일반적인 생성형 AI 배포 패턴을 간소화하는 동시에 GKE Gateway API 기반을 통해 맞춤설정을 제공하는 목적에 맞게 구축된 확장 가능한 솔루션을 활용하세요.

커스텀 측정항목과 함께 GKE Gateway를 사용해야 하는 경우

일부 추론 시나리오를 비롯해 애플리케이션의 고유한 성능 지표에 적응하는 유연한 범용 부하 분산을 위해 맞춤 측정항목과 함께 GKE Gateway를 사용하세요.

다음과 같은 작업을 해야 하는 경우 커스텀 측정항목이 있는 GKE 게이트웨이를 선택하세요.

  • 상대적으로 균일한 요청 비용으로 높은 트래픽 볼륨을 처리합니다.
  • ORCA 부하 보고를 사용하여 애플리케이션에서 보고한 맞춤 측정항목을 기반으로 부하를 분산합니다.
  • GKE 추론 게이트웨이에서 제공하는 AI/LLM 관련 라우팅 인텔리전스를 사용하지 않습니다.
  • 추론 서비스의 요구사항을 충족하는 기존 애플리케이션 부하 분산기 배포와의 일관성을 우선시합니다.

다음 단계