GKE 볼륨 포퓰레이터 정보


Google Kubernetes Engine (GKE) 볼륨 포퓰레이터를 사용하면 동적 프로비저닝 중에 Cloud Storage 버킷의 데이터를 대상 PersistentVolumeClaims (PVC)에 미리 로드하는 프로세스를 자동화하고 간소화할 수 있습니다.

GKE 볼륨 포퓰레이터 작동 방식

GKE 볼륨 포퓰레이터는 핵심 Kubernetes 볼륨 포퓰레이터 개념을 활용합니다. GKE 볼륨 포퓰레이터를 사용하면 빈 볼륨을 프로비저닝하는 대신 PVC가 GCPDataSource 커스텀 리소스를 참조할 수 있습니다. 이 커스텀 리소스는 소스 Cloud Storage 버킷과 필요한 사용자 인증 정보를 지정합니다.

GCPDataSource 리소스를 가리키는 dataSourceRef를 사용하여 PVC를 만들면 GKE 볼륨 포퓰레이터가 데이터 전송을 시작합니다. 지정된 Cloud Storage 버킷 URI에서 기본 영구 스토리지 볼륨으로 데이터를 복사한 후 볼륨을 포드에서 사용할 수 있도록 합니다.

이 프로세스를 통해 수동 데이터 전송 스크립트나 CLI 명령어를 사용할 필요가 줄어들고 대규모 데이터 세트가 영구 볼륨으로 자동 전송됩니다. GKE 볼륨 포퓰레이터는 다음 소스 및 대상 유형 간의 데이터 전송을 지원합니다.

GKE 볼륨 포퓰레이터는 Autopilot 및 Standard 클러스터에서 모두 기본적으로 사용 설정되는 GKE 관리 구성요소입니다. 주로 gcloud CLIkubectl CLI를 통해 GKE 볼륨 포퓰레이터와 상호작용합니다.

아키텍처

다음 다이어그램은 데이터가 소스 스토리지에서 대상 스토리지로 이동하는 방식과 GKE 볼륨 포퓰레이터를 사용하여 대상 스토리지의 PersistentVolume이 생성되는 방식을 보여줍니다.

  1. GCPDataSource 커스텀 리소스를 참조하는 PVC를 만듭니다.
  2. GKE 볼륨 포퓰레이터가 PVC를 감지하고 데이터 전송 작업을 시작합니다.
  3. 전송 작업은 기존 노드 풀에서 실행되거나 노드 자동 프로비저닝이 사용 설정된 경우 새 노드 풀이 생성됩니다.
  4. 전송 작업은 GCPDataSource 리소스에 지정된 Cloud Storage 버킷에서 대상 스토리지 볼륨으로 데이터를 복사합니다.
  5. 전송이 완료되면 PVC가 대상 스토리지 볼륨에 바인딩되어 워크로드 포드에서 데이터를 사용할 수 있습니다.

GKE 볼륨 포퓰레이터를 사용하여 소스 데이터 스토리지에서 데이터 전송 및 대상 스토리지에 PV 생성

주요 이점

GKE 볼륨 포퓰레이터는 다음과 같은 여러 이점을 제공합니다.

  • 자동 데이터 채우기: 프로비저닝 중에 Cloud Storage의 데이터로 볼륨을 자동으로 채워 운영 오버헤드를 줄입니다.
  • 원활한 데이터 이동성: 객체 스토리지에서 고성능 파일 (Parallelstore) 또는 블록 스토리지 (Hyperdisk) 시스템으로 데이터를 이동하여 워크로드 요구사항에 따라 가격 또는 성능을 최적화할 수 있습니다.
  • 간소화된 워크플로: 별도의 데이터 로드 작업이나 영구 볼륨을 준비하기 위한 수동 개입이 필요하지 않습니다.
  • ID 및 액세스 관리 (IAM)와의 통합: GKE용 워크로드 아이덴티티 제휴를 통해 IAM 기반 인증을 사용하여 세부적인 액세스 제어로 안전한 데이터 전송을 지원합니다.
  • AI/ML 워크로드 가속화: 대규모 데이터 세트, 모델, 가중치를 고성능 스토리지에 직접 빠르게 사전 로드하여 학습 및 추론 작업을 가속화합니다.

GKE 볼륨 포퓰레이터 사용 사례

GKE 볼륨 포퓰레이터를 사용하여 AI/ML용 대규모 학습 데이터 세트를 로드할 수 있습니다. Cloud Storage 버킷에 저장된 대규모 언어 모델 (LLM) 학습용 멀티 테라바이트 데이터 세트가 있다고 가정해 보겠습니다. 학습 작업이 GKE에서 실행되며 높은 I/O 성능이 필요합니다. 데이터를 수동으로 복사하는 대신 GKE 볼륨 포퓰레이터를 사용하여 Parallelstore 또는 Hyperdisk ML 볼륨을 자동으로 프로비저닝하고 PVC가 생성될 때 Cloud Storage의 데이터 세트로 채울 수 있습니다. 이 자동화된 프로세스를 통해 학습 포드가 데이터에 즉시 고속으로 액세스할 수 있습니다.

GKE 볼륨 포퓰레이터를 사용할 수 있는 몇 가지 추가 예시는 다음과 같습니다.

  • 추론 서빙을 위한 모델 로드 시간을 가속화하기 위해 Cloud Storage의 AI/ML 모델 가중치 및 애셋을 Hyperdisk ML 볼륨에 사전 캐싱합니다.
  • 성능이 우수한 디스크 액세스가 필요한 상태 저장 애플리케이션을 위해 Cloud Storage에서 영구 볼륨으로 데이터를 이전합니다.

다음 단계