여러 노드에서 확장되는 긴밀하게 결합된 애플리케이션의 인프라를 만들려면 가상 머신 (VM) 인스턴스 클러스터를 만들면 됩니다. 이 가이드에서는 밀도 높은 리소스 할당을 사용하여 고성능 컴퓨팅 (HPC) 워크로드용 가상 머신 (VM) 인스턴스 클러스터를 구성하기 위한 주요 고려사항과 단계를 간략하게 설명합니다.
Compute Engine은 동일한 네트워크에 연결되어 있지만 리소스가 많이 필요하지 않은 다수의 VM 인스턴스를 만들 수 있는 다양한 방법을 제공합니다. 예를 들어 Compute Engine 문서의 다른 곳에서 설명하는 다음 방법 중 하나를 사용할 수 있습니다.
개별 인스턴스를 만들고 압축 배치 정책을 인스턴스와 연결하여 지연 시간을 줄이는 명령어가 포함된 스크립트를 만들 수도 있습니다.
H4D (미리보기)를 사용하면 VM 인스턴스의 전체 클러스터를 단일 컴퓨터로 취급하여 대규모 HPC 워크로드를 실행할 수 있습니다. VM의 토폴로지 인식 배치를 사용하면 단일 네트워킹 슈퍼블록 내에서 여러 인스턴스에 액세스하고 네트워크 지연 시간을 최소화할 수 있습니다. 이러한 인스턴스에서 Cloud RDMA를 구성하여 긴밀하게 결합된 HPC 워크로드에 중요한 노드 간 통신 성능을 극대화할 수도 있습니다.
개별 리소스 대신 용량 블록을 예약하여 H4D로 이러한 HPC VM 클러스터를 만듭니다. 클러스터의 용량 블록을 사용하면 이러한 대규모 환경을 배포하고 관리하기 위한 다음과 같은 추가 기능이 제공됩니다.
- 토폴로지 인식 VM 인스턴스 배치
- 용량을 확보하고 관리하는 고급 예약 시스템
- 대규모의 상호 종속적인 VM 인스턴스 집합을 위해 설계된 향상된 관리형 인스턴스 그룹 (MIG)
- VM 인스턴스에서 유지보수가 발생하는 시점과 방식을 더 세부적으로 제어할 수 있는 고급 유지보수 예약 및 제어 기능으로, 장기 실행되고 중단에 민감한 워크로드에 중요합니다. 여기에는 고객이 트리거한 유지보수와 리소스 블록의 그룹화된 유지보수와 같은 기능이 포함됩니다.
클러스터 용어
용량 블록을 사용할 때는 다음 용어가 사용됩니다.
H4D VM을 사용한 클러스터 생성 프로세스 개요
예약된 용량 블록에 HPC 클러스터를 만들려면 다음 단계를 완료해야 합니다.
소비 옵션을 선택하고 용량 확보
소비 옵션은 클러스터의 리소스를 획득하는 방법을 결정합니다. 향상된 관리 기능이 있는 클러스터를 만들려면 집중 배포를 위한 용량 블록을 요청해야 합니다.
다음 표에는 용량 블록의 소비 옵션 간 주요 차이점이 요약되어 있습니다.
소비 옵션 | 용량 블록의 미래용 예약 | flex-start(프리뷰) |
---|---|---|
워크로드 특성 | 집중적으로 할당된 리소스가 필요한 장기 실행 대규모 분산 워크로드 | 집중적으로 할당된 리소스가 필요한 단기 워크로드 |
수명 | 시간 무관 | 최대 7일 |
선점형 | 아니요 | 아니요 |
할당량 | 인스턴스를 만들기 전에 할당량이 충분한지 확인합니다. | 선점형 할당량이 청구됩니다. |
가격 책정 |
|
|
리소스 할당 | 밀집 | 밀집 |
프로비저닝 모델 | 예약에 따름 | flex-start(프리뷰) |
생성 방법 | HPC 클러스터와 VM을 만들려면 다음을 수행해야 합니다.
|
VM을 만들려면 다음 옵션 중 하나를 선택합니다. 요청된 용량을 사용할 수 있게 되면 Compute Engine에서 프로비저닝합니다. |
배포 옵션 선택
클러스터 배포에 필요한 제어 수준에 따라 인프라를 더 많이 제어할 수 있는 고도로 관리되는 배포 또는 덜 관리되는 배포 중에서 선택합니다. 사용 가능한 배포 옵션에는 HPC 클러스터의 관리 기능을 향상하기 위한 오케스트레이터 설치 및 구성이 포함됩니다.
- 고도로 관리됨
Google에서 인프라를 배포하고 설정하도록 하려면 클러스터 툴킷 또는 Google Kubernetes Engine (GKE)을 사용하세요.
Cluster Toolkit: Slurm 또는 GKE를 사용하는 클러스터의 구성 및 배포를 간소화하는 Google 제공 오픈소스 도구입니다. 사전 정의된 청사진을 사용하여 청사진을 기반으로 하는 배포 폴더를 빌드합니다. 청사진 또는 배포 폴더를 수정하여 배포 및 소프트웨어 스택을 맞춤설정할 수 있습니다. 그런 다음 Terraform 또는 Packer를 사용하여 Cluster Toolkit에서 생성된 명령어를 실행하여 클러스터를 배포합니다.
이 배포 방법에 관한 튜토리얼은 RDMA 지원 HPC Slurm 클러스터 만들기를 참고하세요.
GKE: 관리형 Kubernetes 서비스이자 오픈소스 컨테이너 조정 플랫폼입니다. GKE는 자동 확장 및 고가용성과 같은 기능을 제공합니다. 이러한 기능을 통해 GKE는 컨테이너화된 애플리케이션을 오케스트레이션하고, 특수 하드웨어를 지원하며, Google Cloud생태계와 호환되는 등 HPC 워크로드를 배포하고 관리하는 데 적합합니다. GKE를 직접 사용하거나 Cluster Toolkit을 사용하여 GKE 클러스터를 배포할 수 있습니다. Google Kubernetes Engine (GKE) Standard 버전 또는 Autopilot 중에서 선택할 수 있습니다.
이 배포 방법에 대한 자세한 내용은 H4D로 HPC 워크로드 실행을 참고하세요.
- 관리형 감소, 제어 기능 강화
클러스터와 클러스터에 설치된 소프트웨어를 더 세부적으로 제어하려면 다음 방법 중 하나로 Compute Engine 클러스터를 만드세요.
Slurm 또는 GKE 이외의 오케스트레이터를 사용하려면 이러한 방법을 사용하면 됩니다. VM이 생성되면 HPC 워크로드에 필요한 주요 소프트웨어를 VM에 수동으로 설치합니다. 시작 스크립트를 사용하여 VM이 시작될 때 소프트웨어 설치를 자동으로 확인하고 필요한 경우 소프트웨어를 설치할 수도 있습니다.
운영체제 이미지 선택
선택하는 운영체제 (OS) 이미지는 클러스터를 배포하는 데 사용하는 서비스에 따라 달라집니다.
GKE의 클러스터: Container-Optimized OS와 같은 GKE 노드 이미지를 사용합니다. 클러스터 툴킷을 사용하여 GKE 클러스터를 배포하는 경우 Container-Optimized OS 이미지가 기본적으로 사용됩니다. 노드 이미지에 대한 자세한 내용은 GKE 문서의 노드 이미지를 참고하세요.
Compute Engine의 클러스터: 다음 이미지 중 하나를 사용할 수 있습니다.
- HPC VM 이미지: 긴밀하게 결합된 HPC 워크로드에 최적화된 Rocky Linux 8 이미지입니다.
- Google Cloud에서 제공하는 OS 이미지: H4D를 지원하는 OS 이미지입니다. HPC 워크로드에 대해 이를 구성해야 합니다.
- 맞춤 이미지: 자체 맞춤 이미지를 만들어 사용할 수 있습니다. HPC 관련 최적화를 포함하려면 HPC VM 이미지를 사용하여 커스텀 이미지를 만드는 것이 좋습니다.
Slurm 클러스터의 경우: Cluster Toolkit은 긴밀하게 결합된 HPC 워크로드에 최적화된 Rocky Linux 8 기반 HPC VM 이미지로 Slurm 클러스터를 배포합니다.
HPC 클러스터 만들기
클러스터 생성 프로세스를 검토하고 워크로드에 대한 예비 결정을 내린 후 다음 옵션 중 하나를 사용하여 클러스터를 만듭니다.
- RDMA 지원 HPC Slurm 클러스터 만들기
- GKE 클러스터를 만듭니다. H4D로 고성능 컴퓨팅 (HPC) 워크로드 실행
- Compute Engine으로 클러스터를 만듭니다.
다음 단계
- 클러스터 툴킷에 대해 자세히 알아보세요.
- RDMA를 사용하는 인스턴스 만들기에 대해 자세히 알아보세요.