이 튜토리얼에서는 Compute Engine에 Slurm 클러스터를 배포하는 방법을 보여줍니다. Slurm Workload Manager는 여러 고성능 컴퓨팅 센터에서 사용되는 인기 있는 워크로드 관리자입니다. 고성능 컴퓨팅 용어 및 사용 사례에 대한 설명은 클라우드에서 대규모 기술 컴퓨팅을 위한 클러스터 사용을 참조하세요.
다음 다이어그램은 이 가이드에서 만드는 구성을 보여줍니다.
클러스터 워크로드 관리자로서 Slurm은 다음을 수행합니다.
- 리소스(컴퓨팅 노드)를 사용자에게 할당합니다.
- 노드에서 시작, 실행, 모니터링 작업을 위한 구조를 제공합니다.
- 대기 중인 작업의 큐를 관리합니다.
이 가이드용으로 개발된 배포는 단일 앱 워크로드를 실행하는 일부 사용자를 지원하는 간소화된 클러스터 아키텍처입니다. 온프레미스 또는 멀티 클라우드 클러스터로 작동하는 멀티 워크로드 배포, 대규모 프로덕션 배포, 하이브리드 배포에는 다른 구성을 사용할 수 있지만, 이 가이드에서는 이러한 구성을 다루지 않습니다.
이 가이드에서는 로그인(헤드) 노드를 사용하여 시스템과 상호작용합니다. 클러스터를 배포한 후 SSH를 사용하여 로그인 노드에 연결하고 앱을 설치한 다음, Slurm 명령줄 도구를 사용하여 계산할 작업을 제출합니다. 컨트롤러 노드에서 실행되는 Slurm 스케줄러는 사용 가능한 리소스를 작업 요구사항에 맞춰 큐에 추가된 작업을 예약하고 컴퓨팅 노드에서 작업 실행을 관리합니다. NFS 서버는 파일의 공통 공유 공간을 제공합니다.
목표
- Terraform을 사용하여 Slurm 클러스터를 배포합니다.
- Slurm을 사용하여 작업을 실행합니다.
- 클러스터 정보를 쿼리하고 Slurm에서 실행 중인 작업을 모니터링합니다.
- 작업 매개변수 및 요구사항을 수용하도록 노드를 자동 확장합니다.
비용
이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.
프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.
이 튜토리얼을 마치면 만든 리소스를 삭제하여 비용이 계속 청구되지 않게 할 수 있습니다. 자세한 내용은 삭제를 참조하세요.
시작하기 전에
- Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
-
Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.
-
Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.
-
Compute Engine API 사용 설정
-
Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.
-
Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.
-
Compute Engine API 사용 설정
-
콘솔에서 Cloud Shell을 활성화합니다.
콘솔 하단에 Cloud Shell 세션이 시작되고 명령줄 프롬프트가 표시됩니다. Cloud Shell은 Google Cloud CLI가 사전 설치된 셸 환경으로, 현재 프로젝트의 값이 이미 설정되어 있습니다. 세션이 초기화되는 데 몇 초 정도 걸릴 수 있습니다.
Slurm 클러스터 배포
이 섹션에서는 클러스터 구성을 준비하고 Terraform을 사용하여 Google Cloud에 Slurm 클러스터를 배포한 다음 클러스터가 작동하는지 확인합니다.
클러스터 구성 준비
Cloud Shell에서
slurm-gcp
GitHub 저장소를 클론합니다.git clone https://github.com/SchedMD/slurm-gcp.git
Terraform 스크립트에 필요한 Python 라이브러리를 설치합니다.
python -m pip install -r slurm-gcp/scripts/requirements.txt
terraform/slurm_cluster/examples/slurm_cluster/cloud/full
폴더에서example.tfvars
파일을full.tfvars
파일에 복사합니다.cd slurm-gcp/terraform/slurm_cluster/examples/slurm_cluster/cloud/full cp example.tfvars full.tfvars
sed
명령어를 사용하여 환경의full.tfvars
파일을 수정합니다.sed -i "s/<PROJECT_ID>/$(gcloud config get-value core/project)/" full.tfvars
(선택사항) 텍스트 편집기에서 사전 설정 값을 변경하여 환경의
full.tfvars
파일을 맞춤설정합니다.(선택사항) 텍스트 편집기에서 추가 Terraform 변수 선언의 주석 처리를 삭제하여 환경의
full.tfvars
파일을 추가로 맞춤설정합니다.
Terraform을 사용하여 Slurm 클러스터 배포
이 섹션에서는 makefile을 실행하여 클러스터를 만들고 배포합니다.
Cloud Shell에서
tfvars
파일을 적용하여 클러스터를 구성하고 배포합니다.make apply TFVARS=full.tfvars
클러스터 구성을 완료하는 데 5~10분이 걸립니다. 구성 진행 상황을 추적합니다.
export CLUSTER_ZONE=$(gcloud compute instances list \ --filter="name ~ .*controller" --format="value(zone)") gcloud compute ssh full-controller \ --command "sudo journalctl -fu google-startup-scripts.service" \ --zone $CLUSTER_ZONE
스크립트가 완료되면 Slurm 클러스터를 사용할 수 있습니다. 출력은 다음 줄로 끝납니다.
Started Google Compute Engine Startup Scripts.
구성 확인을 중단하려면 Control + C를 누릅니다.
클러스터가 작동하는지 확인
Cloud Shell에서 로그인 노드에 로그인하여 클러스터가 준비되었는지 확인합니다.
export CLUSTER_LOGIN_NODE=$(gcloud compute instances list \ --filter="name ~ .*login." --format="value(name)") export CLUSTER_ZONE=$(gcloud compute instances list \ --filter="name ~ .*login." --format="value(zone)") gcloud compute ssh ${CLUSTER_LOGIN_NODE} \ --zone $CLUSTER_ZONE
출력이 다음과 유사하면 클러스터가 준비된 것입니다.
SSSSSSS SSSSSSSSS SSSSSSSSS SSSSSSSSS SSSS SSSSSSS SSSS SSSSSS SSSSSS SSSSSS SSSSSSS SSSSSS SSSS SSSSSSSSS SSSS SSS SSSSSSSSS SSS SSSSS SSSS SSSSSSSSS SSSS SSSSS SSS SSSSSS SSSSSSSSS SSSSSS SSS SSSSSS SSSSSSS SSSSSS SSS SSSSSS SSSSSS SSS SSSSS SSSS SSSSSSS SSSS SSSSS S SSS SSSSSSSSS SSS S SSS SSSS SSSSSSSSS SSSS SSS S SSS SSSSSS SSSSSSSSS SSSSSS SSS S SSSSS SSSSSS SSSSSSSSS SSSSSS SSSSS S SSSSS SSSS SSSSSSS SSSS SSSSS S S SSS SSS SSS SSS S S S S S SSS SSS SSS SSS SSSSSSSSSSSS SSS SSSS SSSS SSSSSSSSS SSSSSSSSSSSSSSSSSSSS SSSSSSSSSSSSS SSS SSSS SSSS SSSSSSSSSS SSSSSSSSSSSSSSSSSSSSSS SSSS SSS SSSS SSSS SSSS SSSS SSSS SSSS SSSS SSS SSSS SSSS SSSS SSSS SSSS SSSS SSSSSSSSSSSS SSS SSSS SSSS SSSS SSSS SSSS SSSS SSSSSSSSSSSS SSS SSSS SSSS SSSS SSSS SSSS SSSS SSSS SSS SSSS SSSS SSSS SSSS SSSS SSSS SSSS SSS SSSS SSSS SSSS SSSS SSSS SSSS SSSSSSSSSSSSS SSS SSSSSSSSSSSSSSS SSSS SSSS SSSS SSSS SSSSSSSSSSSS SSS SSSSSSSSSSSSS SSSS SSSS SSSS SSSS
클러스터가 준비되면 작업을 예약하여 제대로 작동하는지 확인합니다. 이 작업은 클러스터의 여러 노드에서
hostname
명령어를 실행합니다.sbatch -N2 --wrap="srun hostname"
작업이 완료되면
squeue
명령어가 항목을 반환하지 않고 출력 파일slurm-*.out
이 표시됩니다.작업 출력을 표시합니다.
cat slurm-*.out
출력은 다음과 비슷합니다.
full-debug-test-0 full-debug-test-1
이제 작업 클러스터가 준비되었습니다.
클러스터를 종료하려면
Control+D
를 누릅니다.
Slurm 클러스터 자동 확장
Slurm 클러스터를 배포할 때 max_node_count
및 static_node_count
속성의 값을 지정합니다. max_node_count
값은 클러스터가 특정 시점에 실행하는 최대 컴퓨팅 노드 수를 결정합니다.
static_node_count
값은 항상 실행 중인 컴퓨팅 노드의 수를 지정합니다. 기본적으로 slurm-cluster.yaml
파일은 max_node_count
를 10
으로, static_node_count
를 2
로 설정합니다.
이 두 숫자 간의 차이, 즉 max_node_count
- static_node_count
는 클러스터의 임시 노드의 수입니다.
임시 노드는 작업 예약 요청에 대한 응답으로 필요에 따라 생성됩니다.
실행하기 위해 생성된 작업이 완료되면 클러스터가 다른 작업을 실행하는 데 노드를 사용하지 않는 한 해당 노드가 삭제됩니다. Google Cloud에서 Slurm 절전 메커니즘은 필요할 때만 임시 노드를 인스턴스화하여 클러스터를 자동 확장합니다.
Cloud Shell에서 클러스터의 로그인 노드에 로그인합니다.
gcloud compute ssh ${CLUSTER_LOGIN_NODE} --zone $CLUSTER_ZONE
노드 수를 봅니다.
sinfo
출력은 다음과 비슷합니다.
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST debug* up infinite 8 idle~ demo-compute[3-10] debug* up infinite 2 idle demo-compute[1-2]
출력의 첫 번째 줄에 있는
STATE
설명어idle
의~
서픽스는 임시 노드 8개가 절전 모드 상태임을 나타냅니다.클러스터를 자동 확장하려면 임시 노드를 3개 만듭니다.
sbatch -N5 --wrap="srun hostname"
출력은 다음과 유사합니다.
Submitted batch job JOB_ID
노드 수를 다시 확인합니다.
sinfo
출력은 다음과 비슷합니다.
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST debug* up infinite 3 alloc# demo-compute[3-5] debug* up infinite 5 idle~ demo-compute[6-10] debug* up infinite 2 idle demo-compute[1-2]
출력의 첫 번째 줄에 있는
STATE
설명어alloc
의#
서픽스는 임시 노드 3개가 생성되었음을 나타냅니다. 추가 노드는 생성 및 구성된 후 작업을 실행하고 잠시 후에 삭제됩니다.클러스터를 종료하려면
Control+D
를 누릅니다.
정리
비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 Cloud 프로젝트를 삭제하는 것입니다. 또는 개별 리소스를 삭제할 수 있습니다.Slurm 클러스터 삭제
다음과 같이 클러스터를 삭제합니다.
terraform destroy -var-file=full.tfvars -auto-approve
프로젝트 삭제
- 콘솔에서 리소스 관리 페이지로 이동합니다.
- 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
- 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.
다음 단계
- Google Cloud에 대한 참조 아키텍처, 다이어그램, 튜토리얼, 권장사항 살펴보기. Cloud 아키텍처 센터 살펴보기