Parallelstore로 AI 및 ML 워크로드 최적화

Last reviewed 2025-01-20 UTC

이 문서에서는 Parallelstore를 사용하여 인공지능 (AI) 또는 머신러닝(ML) 워크로드의 성능을 최적화하는 방법을 보여주는 참조 아키텍처를 제공합니다. Parallelstore는 비용을 절감하고, 리소스 사용률을 개선하며, AI 및 ML 워크로드의 학습 시간을 단축하는 데 도움이 되는 병렬 파일 시스템 스토리지 서비스입니다.

이 문서의 주요 대상에는 Google Cloud에서 AI 및 ML 워크로드의 스토리지를 설계, 프로비저닝, 관리하는 설계자와 기술 실무자가 포함됩니다. 이 문서에서는 ML 수명 주기, 프로세스, 기능에 대한 이해가 있다고 가정합니다.

Parallelstore는 분산 비동기 객체 스토리지 (DAOS) 아키텍처를 기반으로 Google Cloud 에 빌드된 완전 관리형 고성능 스크래치 파일 시스템입니다. Parallelstore는 최대 100TiB의 스토리지 용량을 사용하고 높은 처리량과 높은 초당 입출력 작업 수 (IOPS)로 짧은 지연 시간 (1밀리초 미만) 액세스를 제공해야 하는 AI 및 ML 워크로드에 적합합니다.

Parallelstore는 AI 및 ML 워크로드에 다음과 같은 여러 이점을 제공합니다.

  • 학습의 총소유비용 (TCO) 절감: Parallelstore는 컴퓨팅 노드에 데이터를 효율적으로 전송하여 학습 시간을 단축합니다. 이 기능은 AI 및 ML 모델 학습의 총 소유 비용을 줄이는 데 도움이 됩니다.
  • 서빙 TCO 절감: Parallelstore의 고성능 기능을 사용하면 더 빠른 모델 로드와 최적화된 추론 서빙이 가능합니다. 이러한 기능은 컴퓨팅 비용을 절감하고 리소스 사용률을 개선하는 데 도움이 됩니다.
  • 효율적인 리소스 사용: Parallelstore를 사용하면 단일 인스턴스 내에서 학습, 체크포인트, 서빙을 결합할 수 있습니다. 이러한 리소스 활용을 통해 단일 고성능 스토리지 시스템에서 읽기 및 쓰기 처리량을 효율적으로 사용할 수 있습니다.

아키텍처

다음 다이어그램은 Parallelstore를 사용하여 모델 학습 워크로드와 제공 워크로드의 성능을 최적화하기 위한 샘플 아키텍처를 보여줍니다.

이 아키텍처는 Parallelstore를 사용하여 모델 학습 워크로드와 제공 워크로드의 성능을 최적화합니다.

위의 아키텍처에 표시된 워크로드는 이후 섹션에서 자세히 설명합니다. 아키텍처에는 다음 구성요소가 포함됩니다.

구성요소 목적
Google Kubernetes Engine (GKE) 클러스터 GKE는 AI 및 ML 모델 학습 및 제공 프로세스가 실행되는 컴퓨팅 호스트를 관리합니다. GKE는 컨트롤 플레인, 노드, 모든 시스템 구성요소를 포함하여 클러스터의 기본 인프라를 관리합니다.
Kubernetes 스케줄러 GKE 제어 영역은 워크로드를 예약하고 워크로드의 수명 주기, 확장, 업그레이드를 관리합니다. 다이어그램에 표시되지 않은 Kubernetes 노드 에이전트 (kubelet)는 제어 영역과 통신합니다. kubelet는 GKE 노드에 예약된 컨테이너를 시작하고 실행합니다. 동적 워크로드 스케줄러를 사용하여 일괄 및 AI 워크로드용 GPU를 배포할 수 있으므로 대규모 커밋 없이 GPU를 요청할 수 있습니다. 스케줄러에 관한 자세한 내용은 GKE에서 AI/ML 조정을 참고하세요.
Virtual Private Cloud (VPC) 네트워크 아키텍처의 모든 Google Cloud 리소스는 단일 VPC 네트워크를 사용합니다. 요구사항에 따라 여러 네트워크를 사용하는 아키텍처를 빌드할 수 있습니다. Parallelstore의 VPC 네트워크를 구성하는 방법에 관한 자세한 내용은 VPC 네트워크 구성을 참고하세요.
Cloud Load Balancing 이 아키텍처에서 Cloud Load Balancing은 애플리케이션 사용자의 수신 추론 요청을 GKE 클러스터의 제공 컨테이너에 효율적으로 배포합니다. Cloud Load Balancing을 사용하면 AI 및 ML 애플리케이션의 고가용성, 확장성, 최적의 성능을 보장할 수 있습니다. 자세한 내용은 GKE 부하 분산 이해하기를 참고하세요.
그래픽 처리 장치 (GPU) 또는 Tensor Processing Unit(TPU) GPU 및 TPU는 AI 및 ML 워크로드의 성능을 개선하는 특수 머신 가속기입니다. 적절한 프로세서 유형을 선택하는 방법에 관한 자세한 내용은 이 문서의 뒷부분에 있는 가속기 옵션을 참고하세요.
Parallelstore Parallelstore는 지연 시간이 짧고 처리량이 높은 고성능 병렬 파일 시스템을 제공하여 AI 및 ML 학습과 처리를 가속화합니다. Cloud Storage만 사용하는 것과 비교하면 Parallelstore를 사용하면 학습 시간이 크게 단축되고 제공 중에 모델의 응답성이 개선됩니다. 이러한 개선사항은 공유 데이터에 빠르고 일관된 액세스가 필요한 까다로운 워크로드에서 특히 실현됩니다.
Cloud Storage Cloud Storage는 AI 및 ML 워크로드에 비용 효율적인 영구 스토리지를 제공합니다. Cloud Storage는 원시 학습 데이터 세트, 모델 체크포인트, 최종 학습된 모델의 중앙 저장소 역할을 합니다. Cloud Storage를 사용하면 계산에 적극적으로 사용되지 않는 데이터의 데이터 내구성, 장기 가용성, 비용 효율성을 보장할 수 있습니다.

학습 워크로드

위의 아키텍처에서 모델 학습 중 데이터 흐름의 단계는 다음과 같습니다.

  1. Cloud Storage에 학습 데이터 업로드: 안전하고 확장 가능한 중앙 저장소 및 정보 소스로 사용되는 Cloud Storage 버킷에 학습 데이터를 업로드합니다.
  2. Parallelstore로 데이터 복사: 학습 데이터 자료가 Cloud Storage에서 Parallelstore 인스턴스로 일괄 API 가져오기를 통해 전송됩니다. 학습 데이터를 전송하면 Parallelstore의 고성능 파일 시스템 기능을 활용하여 모델 학습 중에 데이터 로드 및 처리 속도를 최적화할 수 있습니다.
  3. GKE에서 학습 작업 실행: 모델 학습 프로세스가 GKE 노드에서 실행됩니다. Cloud Storage에서 직접 데이터를 로드하는 대신 Parallelstore를 데이터 소스로 사용하면 GKE 노드가 속도와 효율성을 크게 높여 학습 데이터에 액세스하고 이를 로드할 수 있습니다. Parallelstore를 사용하면 특히 대규모 데이터 세트와 복잡한 모델의 경우 데이터 로드 시간을 줄이고 전반적인 학습 프로세스를 가속화할 수 있습니다. 워크로드 요구사항에 따라 GPU 또는 TPU를 사용할 수 있습니다. 적절한 프로세서 유형을 선택하는 방법에 관한 자세한 내용은 이 문서의 뒷부분에 나오는 가속기 옵션을 참고하세요.
  4. Parallelstore에 학습 체크포인트 저장: 학습 프로세스 중에 정의한 측정항목 또는 간격을 기반으로 체크포인트가 Parallelstore에 저장됩니다. 체크포인트는 빈번한 간격으로 모델의 상태를 캡처합니다.
  5. Cloud Storage에 체크포인트 및 모델 저장: Parallelstore 인스턴스에서 일괄 API 내보내기를 사용하여 일부 체크포인트와 학습된 모델을 Cloud Storage에 저장하는 것이 좋습니다. 이렇게 하면 내결함성을 보장하고 특정 지점에서 학습을 재개하고, 프로덕션용으로 모델을 배포하고, 추가 실험을 진행하는 등의 향후 사용 사례를 지원할 수 있습니다. 체크포인트는 학습 데이터와 다른 버킷에 저장하는 것이 좋습니다.
    • 체크포인트 또는 모델 복원: AI 및 ML 워크플로에서 체크포인트 또는 모델 데이터를 복원해야 하는 경우 Cloud Storage에서 복원할 애셋을 찾아야 합니다. 타임스탬프, 실적 측정항목 또는 특정 버전을 기준으로 복원할 애셋을 선택합니다. API 가져오기를 사용하여 Cloud Storage에서 Parallelstore로 애셋을 전송한 후 애셋을 학습 컨테이너에 로드합니다. 그런 다음 복원된 체크포인트 또는 모델을 사용하여 학습을 재개하거나, 매개변수를 미세 조정하거나, 검증 세트에서 성능을 평가할 수 있습니다.

제공 워크로드

위의 아키텍처에서 모델 게재 중에 데이터 흐름의 단계는 다음과 같습니다.

  1. 서빙을 위한 모델 로드: 학습이 완료되면 포드가 학습된 모델을 서빙 노드에 로드합니다. 학습 중에 사용한 Parallelstore 인스턴스에 충분한 IOPS 용량이 있는 경우 학습 인스턴스를 사용하여 모델을 제공하면 모델 로드를 가속화하고 비용을 절감할 수 있습니다. 학습 인스턴스를 재사용하면 학습과 제공 간에 효율적인 리소스 공유가 가능합니다. 하지만 최적의 성능과 호환성을 유지하려면 서비스 GKE 노드에서 사용할 수 있는 가속기 유형과 일치하는 가속기 유형(GPU 또는 TPU)을 학습에 사용합니다.
  2. 추론 요청: 애플리케이션 사용자가 AI 및 ML 애플리케이션을 통해 추론 요청을 전송합니다. 이러한 요청은 Cloud Load Balancing 서비스로 전달됩니다. Cloud Load Balancing은 들어오는 요청을 GKE 클러스터의 제공 컨테이너에 분산합니다. 이렇게 분산하면 단일 컨테이너가 과부하되지 않고 요청이 효율적으로 처리됩니다.
  3. 추론 요청 제공: 프로덕션 중에 시스템은 모델 제공 캐시를 활용하여 추론 요청을 효율적으로 처리합니다. 컴퓨팅 노드는 먼저 일치하는 예측을 확인하여 캐시와 상호작용합니다. 일치하는 예측이 발견되면 직접 반환되므로 응답 시간과 리소스 사용량을 최적화하는 데 도움이 됩니다. 그렇지 않으면 모델은 요청을 처리하고 예측을 생성한 후 향후 효율성을 위해 캐시에 저장합니다.
  4. 응답 전송: 제공 컨테이너가 Cloud Load Balancing을 통해 응답을 다시 보냅니다. Cloud Load Balancing은 응답을 적절한 애플리케이션 사용자에게 다시 라우팅하여 추론 요청 주기를 완료합니다.

사용 제품

이 참조 아키텍처는 다음과 같은 Google Cloud 제품을 사용합니다.

  • Virtual Private Cloud (VPC): 워크로드에 확장 가능한 전역 네트워킹 기능을 제공하는 가상 시스템입니다. Google Cloud VPC에는 VPC 네트워크 피어링, Private Service Connect, 비공개 서비스 액세스, 공유 VPC가 포함됩니다.
  • Google Kubernetes Engine(GKE): Google 인프라를 사용하여 컨테이너화된 애플리케이션을 대규모로 배포 및 운영하는 데 사용할 수 있는 Kubernetes 서비스입니다.
  • Cloud Storage: 다양한 데이터 유형에 적합한 저비용, 무제한 객체 저장소입니다. Google Cloud내부 및 외부에서 데이터에 액세스할 수 있고 중복성을 위해 여러 위치에 복제됩니다.
  • Parallelstore: AI, 고성능 컴퓨팅 (HPC), 데이터 집약적 애플리케이션을 위한 완전 관리형 병렬 파일 시스템입니다.

사용 사례

Parallelstore는 최대 100TiB의 스토리지 용량을 갖고 있으며 높은 처리량과 높은 IOPS로 짧은 지연 시간 (1밀리초 미만) 액세스를 제공해야 하는 AI 및 ML 워크로드에 적합합니다. 다음 섹션에서는 Parallelstore를 사용할 수 있는 사용 사례의 예시를 제공합니다.

텍스트 기반 처리 및 텍스트 생성

대규모 언어 모델 (LLM)은 텍스트 기반 데이터를 이해하고 처리하기 위해 특별히 설계된 특수 AI 모델입니다. LLM은 대규모 텍스트 데이터 세트로 학습되므로 기계 번역, 질문에 답변, 텍스트 요약 등 다양한 작업을 수행할 수 있습니다. LLM 모델을 학습하려면 효율적인 요청 처리 및 텍스트 생성을 위해 데이터 세트에 지연 시간이 짧은 액세스가 필요합니다. Parallelstore는 학습과 추론에 모두 필요한 높은 처리량과 짧은 지연 시간을 제공하여 데이터 집약적인 애플리케이션에 뛰어나며, 이를 통해 반응성이 뛰어난 LLM 기반 애플리케이션을 제공합니다.

고해상도 이미지 또는 동영상 처리

의료 이미징 분석이나 자율주행 시스템과 같이 고해상도 이미지나 동영상을 처리하는 기존 AI 및 ML 애플리케이션 또는 멀티모달 생성형 모델에는 대용량 스토리지 용량과 빠른 데이터 액세스가 필요합니다. Parallelstore의 고성능 스크래치 파일 시스템을 사용하면 빠른 데이터 로드를 통해 애플리케이션 성능을 가속화할 수 있습니다. 예를 들어 Parallelstore는 Cloud Storage에서 가져온 MRI 및 CT 스캔과 같은 대용량 환자 데이터를 일시적으로 보관하고 처리할 수 있습니다. 이 기능을 사용하면 AI 및 ML 모델이 진단 및 치료를 위해 데이터를 빠르게 분석할 수 있습니다.

설계 대안

다음 섹션에서는 Google Cloud의 AI 및 ML 애플리케이션에 고려할 수 있는 대체 설계 접근 방식을 보여줍니다.

플랫폼 대안

GKE에서 모델 학습 및 제공 워크플로를 호스팅하는 대신 Slurm이 포함된 Compute Engine을 고려해 볼 수 있습니다. Slurm은 구성 가능성이 높고 오픈소스인 워크로드 및 리소스 관리자입니다. Slurm과 함께 Compute Engine을 사용하면 대규모 모델 학습 및 시뮬레이션에 특히 적합합니다. 독점 AI 및 ML 지식 재산권 (IP)을 확장 가능한 환경에 통합해야 하며, 이때 유연성과 제어 기능을 통해 특수 워크로드의 성능을 최적화해야 하는 경우 Slurm과 함께 Compute Engine을 사용하는 것이 좋습니다.

Compute Engine에서는 가상 머신 (VM)을 프로비저닝하고 관리할 수 있으므로 인스턴스 유형, 스토리지, 네트워킹을 세부적으로 제어할 수 있습니다. 특정 VM 머신 유형을 선택하는 등 정확한 요구사항에 맞게 인프라를 조정할 수 있습니다. 가속기 최적화 머신 계열을 사용하여 AI 및 ML 워크로드의 성능을 개선할 수도 있습니다. Compute Engine에서 사용할 수 있는 머신 유형 제품군에 대한 자세한 내용은 머신 계열 리소스 및 비교 가이드를 참고하세요.

Slurm은 AI 및 ML 워크로드를 관리하기 위한 강력한 옵션을 제공하며 이를 통해 컴퓨팅 리소스의 구성 및 관리를 제어할 수 있습니다. 이 접근 방식을 사용하려면 Slurm 관리 및 Linux 시스템 관리에 대한 전문 지식이 필요합니다.

가속기 옵션

머신 가속기는 AI 및 ML 워크로드에 필요한 연산 속도를 높이도록 설계된 특수 프로세서입니다. 그래픽 처리 장치 (GPU) 또는 Tensor Processing Unit (TPU) 중에서 선택할 수 있습니다.

  • GPU 가속기는 그래픽 렌더링, 딥 러닝 학습, 과학 컴퓨팅을 비롯한 다양한 작업에 뛰어난 성능을 제공합니다. Google Cloud 는 다양한 성능 및 가격대에 맞는 다양한 GPU를 제공합니다. GPU 모델 및 가격에 관한 자세한 내용은 GPU 가격 책정을 참고하세요.
  • TPU는 대규모 AI 모델의 학습과 추론에 최적화된 커스텀 설계된 AI 가속기입니다. 챗봇, 코드 생성, 미디어 콘텐츠 생성, 합성 음성, 비전 서비스, 추천 엔진, 맞춤설정 모델 등 다양한 사용 사례에 적합합니다. TPU 모델 및 가격에 관한 자세한 내용은 TPU 가격 책정을 참고하세요.

스토리지 대안 게재

멀티 리전 또는 이중 리전 버킷이 있는 Cloud Storage FUSE는 학습된 AI 및 ML 모델이 Cloud Storage 및 여러 리전에 저장되므로 가장 높은 수준의 가용성을 제공합니다. Cloud Storage FUSE는 Parallelstore보다 VM당 처리량이 낮지만 Cloud Storage FUSE를 사용하면 Cloud Storage의 확장성과 비용 효율성을 활용할 수 있습니다. 특히 까다로운 워크로드의 경우 모델 로드를 가속화하고 성능을 개선하기 위해 각 리전에서 기존 또는 새 Parallelstore 인스턴스를 사용할 수 있습니다. Cloud Storage FUSE로 성능을 개선하는 방법에 관한 자세한 내용은 GKE 성능을 위해 Cloud Storage FUSE CSI 드라이버 최적화를 참고하세요.

Google Cloud Hyperdisk ML은 대규모 데이터 세트에 대한 읽기 전용 액세스가 필요한 대규모 AI 및 ML 워크로드를 가속화하도록 설계된 고성능 블록 스토리지 솔루션입니다. Hyperdisk ML은 더 높은 총괄 처리량으로 프로비저닝할 수 있지만 Parallelstore에 비해 VM당 처리량은 더 낮습니다.

또한 Hyperdisk ML 볼륨은 동일한 영역의 GPU 또는 TPU VM에서만 액세스할 수 있습니다. 따라서 여러 영역에서 서비스를 제공하는 지역 GKE 클러스터의 경우 각 영역에 별도의 Hyperdisk ML 볼륨을 프로비저닝해야 합니다. 이 게재위치는 리전당 인스턴스 하나만 필요한 Parallelstore와 다릅니다. Hyperdisk ML은 읽기 전용이라는 점도 중요합니다. AI 및 ML 워크로드에서 Hyperdisk ML을 사용하는 방법에 관한 자세한 내용은 Hyperdisk ML을 사용하여 AI/ML 데이터 로드 가속화를 참고하세요.

설계 고려사항

Google Cloud에서 AI 및 ML 워크로드의 성능과 비용 효율성을 최적화하는 Parallelstore 배포를 설계하려면 다음 섹션의 가이드라인을 사용하세요. 이 가이드라인에서는 워크플로 내 특정 작업을 위해 여러 스토리지 옵션을 결합하는 하이브리드 솔루션의 일부로 Parallelstore를 사용할 때 고려해야 할 권장사항을 설명합니다.

학습

AI 및 ML 모델 학습을 위해서는 반복적으로 모델에 데이터를 제공하고, 매 반복마다 매개변수를 조정하고, 성능을 평가해야 합니다. 이 프로세스는 계산 집약적일 수 있으며, 훈련 데이터를 읽고 업데이트된 모델 매개변수를 작성해야 하므로 많은 양의 I/O 요청이 생성됩니다.

학습 중에 성능 이점을 극대화하려면 다음을 권장합니다.

  • 캐싱: Parallelstore를 Cloud Storage 위에 있는 고성능 캐시로 사용합니다.
  • 미리 가져오기: Cloud Storage에서 Parallelstore로 데이터를 가져와 학습 중 지연 시간을 최소화합니다. GKE 볼륨 채우기 도구를 사용하여 Cloud Storage의 데이터로 PersistentVolumesClaims를 미리 채울 수도 있습니다.
  • 비용 최적화: 장기 스토리지 비용을 최소화하기 위해 학습 후 데이터를 더 저렴한 Cloud Storage 클래스로 내보냅니다. 영구 데이터는 Cloud Storage에 저장되므로 학습 작업에 필요한 경우 Parallelstore 인스턴스를 소멸하고 다시 만들 수 있습니다.
  • GKE 통합: GKE 컨테이너 스토리지 인터페이스 (CSI) 드라이버와 통합하여 관리를 간소화합니다. GKE 클러스터를 Parallelstore 인스턴스에 연결하는 방법에 관한 자세한 내용은 Google Kubernetes Engine Parallelstore CSI 드라이버를 참고하세요.
  • A3 VM 성능: 최적의 데이터 전송을 위해 A3 변형에서 20GB/s (GPU당 약 2.5GB/s) 이상의 전송 속도를 제공합니다.
  • 동시 액세스: Parallelstore 인스턴스를 사용하여 전이중 읽기 및 쓰기를 수용합니다.

학습을 위해 Parallelstore를 배포할 때는 다음 사항을 고려하세요.

  • 스크래치 파일 시스템: 학습 프로세스 전반에서 체크포인트 간격을 구성합니다. Parallelstore는 스크래치 파일 시스템이므로 데이터가 일시적으로 저장됩니다. 100TiB 범위에서 예상되는 데이터 손실 평균 시간은 2개월입니다. 23TiB 범위에서 예상되는 평균 데이터 손실 시간은 12개월 이상입니다.
  • 파일 및 디렉터리 스트리핑: 주로 사용하는 파일 크기에 맞게 파일 및 디렉터리 스트리핑을 최적화하여 성능을 극대화합니다.
  • 비용 최적화: Parallelstore 대신 Cloud Storage에 데이터를 적절하게 스테이징하여 비용을 최적화합니다.
  • 영역 선택: GPU 또는 TPU 컴퓨팅 클라이언트와 스토리지 노드를 동일한 영역에 배치하여 비용과 성능을 최적화합니다.

성능을 최적화하도록 Parallelstore 환경을 구성하는 방법에 관한 자세한 내용은 성능 고려사항을 참고하세요.

체크포인트

체크포인트는 AI 및 ML 모델 학습에서 중요한 측면입니다. 체크포인트를 사용하면 프로세스 중 여러 지점에서 모델 상태를 저장할 수 있으므로 중단, 시스템 오류 또는 다양한 초매개변수 구성을 살펴볼 때 저장된 체크포인트에서 학습을 재개할 수 있습니다. 학습에 Parallelstore를 사용하는 경우 높은 쓰기 처리량을 활용하고 학습 시간을 최소화하기 위해 체크포인트에도 Parallelstore를 사용하는 것이 중요합니다. 이 접근 방식은 리소스를 효율적으로 활용하고 학습과 체크포인트 모두를 최대한 빠르게 유지하여 GPU 리소스의 TCO를 낮추는 데 도움이 됩니다.

Parallelstore로 체크포인트 워크플로를 최적화하려면 다음 권장사항을 고려하세요.

  • 빠른 체크포인트: Parallelstore를 사용하여 빠른 체크포인트 쓰기를 활용합니다. 용량 TiB당 0.5GB/s의 처리량과 A3 VM당 12GB/s 이상의 처리량을 달성할 수 있습니다.
  • 선택적 체크포인트 저장: 장기 저장소 및 재해 복구를 위해 Parallelstore에서 선택한 체크포인트를 Cloud Storage로 내보냅니다.
  • 동시 작업: 학습 및 체크포인트 쓰기에 Parallelstore를 동시에 사용하여 읽기 및 쓰기 전체 듀플렉싱의 이점을 누리세요.

서빙

서빙에는 학습된 AI 및 ML 모델을 배포하여 추론 요청을 처리하는 것이 포함됩니다. 최적의 성능을 얻으려면 이러한 모델을 메모리에 로드하는 데 걸리는 시간을 최소화하는 것이 중요합니다. Parallelstore는 주로 학습 워크로드용으로 설계되었지만 Parallelstore의 VM당 높은 처리량 (20GB/s 이상)과 집계된 클러스터 처리량을 사용하여 수천 대의 VM에서 모델 로드 시간을 최소화할 수 있습니다. 병목 현상을 파악하고 최적의 효율성을 보장하는 주요 측정항목을 추적하려면 Cloud Monitoring을 사용하세요.

게재를 위해 Parallelstore를 배포할 때는 다음을 고려하세요.

  • 높은 처리량: Cloud Monitoring을 사용하여 Parallelstore 성능을 극대화하여 100TiB에서 최대 125GB/s의 처리량을 달성하기에 충분한 용량을 배포합니다.
  • 서비스 중단 가능성: Parallelstore는 스크래치 파일 시스템이므로 가끔 서비스가 중단될 수 있습니다. 100TiB 클러스터의 평균 데이터 손실 시간은 약 2개월입니다.
  • 데이터 복원: 서비스 중단이 발생하면 최신 Cloud Storage 백업에서 Parallelstore 데이터를 복원해야 합니다. 데이터는 약 16GB/s의 속도로 전송됩니다.
  • 공유 인스턴스: 학습 및 제공에 하나의 Parallelstore 인스턴스를 사용하면 리소스 사용률이 극대화되고 비용 효율적일 수 있습니다. 그러나 두 워크로드 모두 처리량 요구사항이 높으면 리소스 경합이 발생할 수 있습니다. 학습 후 여유 IOPS를 사용할 수 있는 경우 동일한 인스턴스를 사용하면 제공을 위한 모델 로드를 가속할 수 있습니다. Cloud Monitoring을 사용하여 처리량 요구사항을 충족하기에 충분한 리소스를 할당합니다.
  • 별도의 인스턴스: 별도의 인스턴스를 사용하면 성능 격리가 가능하고, 학습 데이터를 격리하여 보안을 강화하며, 데이터 보호를 개선할 수 있습니다. 액세스 제어 목록은 단일 인스턴스 내에서 보안을 관리할 수 있지만 별도의 인스턴스는 더 강력한 보안 경계를 제공합니다.

게재위치 옵션

지연 시간을 최소화하고 성능을 극대화하려면 GPU 또는 TPU 컴퓨팅 클라이언트와 지리적으로 가까운 리전에 Parallelstore 인스턴스를 만드세요.

  • 학습 및 체크포인트: 최적의 결과를 얻으려면 클라이언트와 Parallelstore 인스턴스가 동일한 영역에 있어야 합니다. 이러한 공동 배치는 데이터 전송 시간을 최소화하고 Parallelstore의 쓰기 처리량 활용도를 극대화합니다.
  • 게재: 동일한 영역의 컴퓨팅 클라이언트와 함께 배치하는 것이 이상적이지만 리전당 Parallelstore 인스턴스 하나면 충분합니다. 이 접근 방식을 사용하면 여러 인스턴스를 배포하는 데 드는 추가 비용을 피할 수 있으며 컴퓨팅 성능을 극대화하는 데 도움이 됩니다. 하지만 용량이나 처리량을 추가로 늘려야 하는 경우 리전당 인스턴스를 두 개 이상 배포하는 것이 좋습니다.

두 리전에 Parallelstore를 배포하면 데이터를 게재에 사용되는 GPU 또는 TPU에 지리적으로 더 가깝게 유지하여 성능을 크게 개선할 수 있습니다. 이 배치를 사용하면 지연 시간이 줄고 추론 중에 더 빠르게 데이터에 액세스할 수 있습니다. 지역 서비스 중단이 발생하면 사용자는 학습 애플리케이션과 서비스 애플리케이션을 모두 사용할 수 없게 됩니다.

고가용성과 안정성을 보장하려면 이 아키텍처의 복제본을 다른 리전에 인스턴스화해야 합니다. 지리적으로 중복된 아키텍처를 만들면 한 리전에서 서비스 중단이 발생하더라도 AI 및 ML 애플리케이션이 계속 작동할 수 있습니다. 클러스터 데이터와 Cloud Storage 데이터를 백업 및 복원하고 필요에 따라 다른 리전에 복원하려면 Backup for GKE를 사용하면 됩니다.

Parallelstore 인스턴스에 지원되는 위치에 대한 자세한 내용은 지원되는 위치를 참고하세요.

배포

이 참조 아키텍처를 만들고 배포하려면 Cluster Toolkit을 사용하는 것이 좋습니다. 클러스터 도구 키트는Google Cloud에서 반복 가능한 AI 및 ML 환경을 배포하도록 설계된 모듈식 Terraform 기반 도구 키트입니다. 환경을 정의하려면 GKE 및 Parallelstore 학습 블루프린트를 사용하세요. 클러스터의 Parallelstore 인스턴스를 프로비저닝하고 관리하려면 Parallelstore 모듈을 참고하세요.

Parallelstore를 수동으로 배포하는 방법에 대한 자세한 내용은 Parallelstore 인스턴스 만들기를 참고하세요. 동적 프로비저닝으로 확장성을 더욱 개선하고 성능을 향상하려면 GKE에서 Parallelstore 인스턴스로 지원되는 볼륨을 만들고 사용하면 됩니다.

다음 단계

참여자

작성자: 사만다 헤 | 기술 문서 작성자

기타 참여자: