HPC 클러스터 만들기 개요

여러 노드에 걸쳐 확장되는 긴밀하게 결합된 애플리케이션의 인프라를 만들려면 가상 머신(VM) 인스턴스 클러스터를 만들면 됩니다. 이 가이드에서는 밀도 높은 리소스 할당을 사용하여 고성능 컴퓨팅(HPC) 워크로드용 가상 머신 (VM) 인스턴스 클러스터를 구성하기 위한 주요 고려사항과 단계를 간략하게 설명합니다.

Compute Engine은 동일한 네트워크에 연결되어 있지만 리소스가 많이 필요하지 않은 다수의 VM 인스턴스를 만들 수 있는 다양한 방법을 제공합니다. 예를 들어 Compute Engine 문서의 다른 곳에서 설명하는 다음 방법 중 하나를 사용할 수 있습니다.

개별 인스턴스를 만들고 압축 배치 정책을 인스턴스와 연결하여 지연 시간을 줄이는 명령어가 포함된 스크립트를 만들 수도 있습니다.

H4D(프리뷰)를 사용하면 Compute Engine은 VM 인스턴스의 전체 클러스터를 단일 컴퓨터로 취급하여 대규모 HPC 워크로드를 실행할 수 있는 지원을 추가합니다. VM의 토폴로지 인식 배치를 사용하면 단일 네트워킹 슈퍼블록 내에서 여러 인스턴스에 액세스하고 네트워크 지연 시간을 최소화할 수 있습니다. 이러한 인스턴스에서 Cloud RDMA를 구성하여 긴밀하게 결합된 HPC 워크로드에 중요한 노드 간 통신 성능을 극대화할 수도 있습니다.

개별 리소스 대신 용량 블록을 예약하여 H4D로 이러한 HPC VM 클러스터를 만듭니다. 클러스터의 용량 블록을 사용하면 이러한 대규모 환경을 배포하고 관리하기 위한 다음과 같은 추가 기능이 제공됩니다.

토폴로지 인식 VM 인스턴스 배치
용량을 확보하고 관리하는 고급 예약 시스템
대규모의 상호 종속적인 VM 인스턴스 집합을 위해 설계된 향상된 관리형 인스턴스 그룹(MIG)
고급 유지보수 예약 및 제어 기능: VM 인스턴스에서 유지보수가 발생하는 시점과 방식을 더 세부적으로 제어할 수 있으며, 이는 장기 실행되고 중단에 민감한 워크로드에 중요합니다. 여기에는 고객이 트리거한 유지보수와 리소스 블록의 그룹화된 유지보수와 같은 기능이 포함됩니다.

클러스터 용어

용량 블록을 사용할 때는 다음 용어가 사용됩니다.

차단

여러 하위 블록이 차단되지 않는 패브릭과 상호 연결되어 높은 대역폭 상호 연결을 제공합니다. 블록 내의 모든 CPU는 최대 2개의 네트워크 홉으로 연결할 수 있습니다. 시스템은 최적의 작업 배치를 지원하기 위해 조정자에 블록 및 하위 블록 메타데이터를 노출합니다.

클러스터

여러 블록이 상호 연결되어 대규모 HPC 워크로드를 실행하기 위해 CPU 수천 개로 확장되는 클러스터를 형성합니다. 각 클러스터는 전역적으로 고유합니다. 다양한 블록 간 통신은 홉을 하나만 추가하므로 대규모에서도 높은 성능과 예측 가능성을 유지합니다. 클러스터 수준 메타데이터는 조정자가 지능적인 대규모 작업 배치에 사용할 수도 있습니다.

밀집 배포

네트워크 홉을 최소화하고 최소 지연 시간에 맞게 최적화하기 위해 컴퓨팅 인스턴스 리소스를 물리적으로 서로 가까운 위치에 할당하는 리소스 요청입니다.

네트워크 패브릭

네트워크 패브릭은 클러스터의 모든 블록과 Google Cloud 서비스에 걸쳐 지연 시간이 짧은 고대역폭 연결을 제공합니다. Jupiter는 소프트웨어 정의 네트워킹과 광 회로 스위치를 활용하여 네트워크를 발전시키고 성능을 최적화하는 Google의 데이터 센터 네트워크 아키텍처입니다.

노드 또는 호스트

데이터 센터의 단일 실제 서버 머신입니다. 각 호스트에는 연결된 컴퓨팅 리소스(CPU, 메모리, 네트워크 인터페이스)가 있습니다. 이러한 컴퓨팅 리소스의 수와 구성은 머신 계열에 따라 다릅니다. VM 인스턴스는 실제 호스트 위에 프로비저닝됩니다.

조정자

조정자는 클러스터 관리를 자동화합니다. 조정자를 사용하면 클러스터의 각 VM 인스턴스를 관리할 필요가 없습니다. Slurm 또는 Google Kubernetes Engine(GKE)과 같은 조정자는 작업 대기열, 리소스 할당, 자동 확장(GKE 사용 시) 및 기타 일상적인 클러스터 관리 작업과 같은 작업을 처리합니다.

하위 블록

호스트 그룹이 단일 랙에 물리적으로 공동 배치되는 기본 단위입니다. 랙 상단(ToR) 스위치는 이러한 호스트를 연결하여 하위 블록 내의 두 CPU 간에 매우 효율적인 단일 홉 통신을 지원합니다. Cloud RDMA는 이러한 직접 통신을 지원합니다.

H4D VM을 사용한 클러스터 생성 프로세스 개요

예약된 용량 블록에 HPC 클러스터를 만들려면 다음 단계를 완료해야 합니다.

소비 옵션 선택 및 용량 확보
배포 옵션 및 조정자 선택
운영체제 또는 클러스터 이미지 선택
클러스터 만들기

소비 옵션 선택 및 용량 확보

소비 옵션은 클러스터의 리소스를 획득하는 방법을 결정합니다. 향상된 관리 기능이 있는 클러스터를 만들려면 집중 배포를 위한 용량 블록을 요청해야 합니다.

다음 표에는 용량 블록의 소비 옵션 간 주요 차이점이 요약되어 있습니다.

소비 옵션	용량 블록의 미래용 예약	유연한 시작
워크로드 특성	집중적으로 할당된 리소스가 필요한 장기 실행 대규모 분산 워크로드	집중적으로 할당된 리소스가 필요한 단기 워크로드
수명	시간 무관	최대 7일
선점형	아니요	아니요
Quota	인스턴스를 만들기 전에 할당량이 충분한지 확인합니다.	선점형 할당량이 청구됩니다.
가격 책정	VM 가격 책정을 참조하세요. 1년 이상 리소스를 예약하는 경우 예약된 리소스에 리소스 기반 약정을 구매하여 연결해야 합니다. 예약 기간에 대한 요금이 청구됩니다. 예약 결제를 참조하세요.	동적 워크로드 스케줄러 가격 책정을 참조하세요. 사용한 만큼만 지불합니다(PAYG).
리소스 할당	밀집	밀집
프로비저닝 모델	예약에 따름	유연한 시작
생성 방법	HPC 클러스터와 VM을 만들려면 다음을 수행해야 합니다. 계정팀에 문의하여 용량을 예약하세요. 선택한 날짜와 시간에 예약된 용량을 사용하여 HPC 클러스터를 만들 수 있습니다. 배포 옵션 선택을 참조하세요.	VM을 만들려면 다음 옵션 중 하나를 선택합니다. 독립형 플렉스 시작 VM을 만듭니다. MIG 크기 조절 요청을 사용하여 flex-start VM을 한 번에 모두 만듭니다. GKE를 사용하여 H4D로 고성능 컴퓨팅(HPC) 워크로드를 실행합니다. 요청된 용량을 사용할 수 있게 되면 Compute Engine에서 프로비저닝합니다.

배포 옵션 선택

클러스터 배포에 필요한 제어 수준에 따라 인프라를 더 많이 제어할 수 있는 고도로 관리되는 배포 또는 덜 관리되는 배포 중에서 선택합니다. 사용 가능한 배포 옵션에는 HPC 클러스터의 관리 기능을 향상하기 위한 조정자 설치 및 구성이 포함됩니다.

고도로 관리됨

Google에서 인프라를 배포하고 설정하도록 하려면 Cluster Toolkit 또는 Google Kubernetes Engine(GKE)을 사용하세요.

Cluster Toolkit: Slurm 또는 GKE를 사용하는 클러스터의 구성 및 배포를 간소화하는 Google 제공 오픈소스 도구입니다. 사전 정의된 청사진을 사용하여 청사진을 기반으로 하는 배포 폴더를 빌드합니다. 청사진 또는 배포 폴더를 수정하여 배포 및 소프트웨어 스택을 맞춤설정할 수 있습니다. 그런 다음 Terraform 또는 Packer를 사용하여 Cluster Toolkit에서 생성된 명령어를 실행하여 클러스터를 배포합니다.

이 배포 방법에 관한 튜토리얼은 RDMA 지원 HPC Slurm 클러스터 만들기를 참조하세요.
GKE: 관리형 Kubernetes 서비스이자 오픈소스 컨테이너 조정 플랫폼입니다. GKE는 자동 확장 및 고가용성과 같은 기능을 제공합니다. 이러한 기능을 통해 GKE는 컨테이너화된 애플리케이션을 오케스트레이션하고, 특수 하드웨어를 지원하며, Google Cloud생태계와 호환되는 등 HPC 워크로드를 배포하고 관리하는 데 적합합니다. GKE를 직접 사용하거나 Cluster Toolkit을 사용하여 GKE 클러스터를 배포할 수 있습니다. Google Kubernetes Engine(GKE) Standard 버전 또는 Autopilot 중에서 선택할 수 있습니다.

이 배포 방법에 대한 자세한 내용은 H4D로 HPC 워크로드 실행을 참조하세요.

관리형 감소, 제어 기능 강화

클러스터와 클러스터에 설치된 소프트웨어를 더 세부적으로 제어하려면 다음 방법 중 하나로 Compute Engine 클러스터를 만드세요.

Slurm 또는 GKE 이외의 조정자를 사용하려면 이러한 방법을 사용하면 됩니다. VM이 생성되면 HPC 워크로드에 필요한 주요 소프트웨어를 VM에 수동으로 설치합니다. 시작 스크립트를 사용하여 VM이 시작될 때 소프트웨어 설치를 자동으로 확인하고 필요한 경우 소프트웨어를 설치할 수도 있습니다.

운영체제 이미지 선택

선택하는 운영체제(OS) 이미지는 클러스터를 배포하는 데 사용하는 서비스에 따라 달라집니다.

GKE의 클러스터: Container-Optimized OS와 같은 GKE 노드 이미지를 사용합니다. Cluster Toolkit을 사용하여 GKE 클러스터를 배포하는 경우 Container-Optimized OS 이미지가 기본적으로 사용됩니다. 노드 이미지에 대한 자세한 내용은 GKE 문서의 노드 이미지를 참조하세요.
Compute Engine의 클러스터: 다음 이미지 중 하나를 사용할 수 있습니다.
- HPC VM 이미지: 긴밀하게 결합된 HPC 워크로드에 최적화된 Rocky Linux 8 이미지입니다.
- Google Cloud에서 제공하는 OS 이미지: H4D를 지원하는 OS 이미지입니다. HPC 워크로드에 대해 이를 구성해야 합니다.
- 커스텀 이미지: 자체 커스텀 이미지를 만들어 사용할 수 있습니다. HPC 관련 최적화를 포함하려면 HPC VM 이미지를 사용하여 커스텀 이미지를 만드는 것이 좋습니다.
Slurm 클러스터의 경우: Cluster Toolkit은 긴밀하게 결합된 HPC 워크로드에 최적화된 Rocky Linux 8 기반 HPC VM 이미지로 Slurm 클러스터를 배포합니다.

HPC 클러스터 만들기

클러스터 생성 프로세스를 검토하고 워크로드에 대한 예비 결정을 내린 후 다음 옵션 중 하나를 사용하여 클러스터를 만듭니다.

RDMA 지원 HPC Slurm 클러스터 만들기
GKE 클러스터를 만듭니다. H4D로 고성능 컴퓨팅(HPC) 워크로드 실행
Compute Engine으로 클러스터를 만듭니다.

다음 단계

Cluster Toolkit 자세히 알아보기
RDMA를 사용하는 인스턴스 만들기 자세히 알아보기