Compute Engine에 Slurm 클러스터 배포

이 튜토리얼에서는 Compute Engine에 Slurm 클러스터를 배포하는 방법을 보여줍니다. Slurm Workload Manager는 여러 고성능 컴퓨팅 센터에서 사용되는 인기 있는 워크로드 관리자입니다. 고성능 컴퓨팅 용어 및 사용 사례에 대한 설명은 클라우드에서 대규모 기술 컴퓨팅을 위한 클러스터 사용을 참조하세요.

다음 다이어그램은 이 가이드에서 만드는 구성을 보여줍니다.

Compute Engine에 설치된 Slurm 클러스터를 보여주는 아키텍처 다이어그램

클러스터 워크로드 관리자로서 Slurm은 다음을 수행합니다.

  • 리소스(컴퓨팅 노드)를 사용자에게 할당합니다.
  • 노드에서 시작, 실행, 모니터링 작업을 위한 구조를 제공합니다.
  • 대기 중인 작업의 큐를 관리합니다.

이 가이드용으로 개발된 배포는 단일 앱 워크로드를 실행하는 일부 사용자를 지원하는 간소화된 클러스터 아키텍처입니다. 온프레미스 또는 멀티 클라우드 클러스터로 작동하는 멀티 워크로드 배포, 대규모 프로덕션 배포, 하이브리드 배포에는 다른 구성을 사용할 수 있지만, 이 가이드에서는 이러한 구성을 다루지 않습니다.

이 가이드에서는 로그인(헤드) 노드를 사용하여 시스템과 상호작용합니다. 클러스터를 배포한 후 SSH를 사용하여 로그인 노드에 연결하고 앱을 설치한 다음, Slurm 명령줄 도구를 사용하여 계산할 작업을 제출합니다. 컨트롤러 노드에서 실행되는 Slurm 스케줄러는 사용 가능한 리소스를 작업 요구사항에 맞춰 큐에 추가된 작업을 예약하고 컴퓨팅 노드에서 작업 실행을 관리합니다. NFS 서버는 파일의 공통 공유 공간을 제공합니다.

목표

  • Terraform을 사용하여 Slurm 클러스터를 배포합니다.
  • Slurm을 사용하여 작업을 실행합니다.
  • 클러스터 정보를 쿼리하고 Slurm에서 실행 중인 작업을 모니터링합니다.
  • 작업 매개변수 및 요구사항을 수용하도록 노드를 자동 확장합니다.

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

이 튜토리얼을 마치면 만든 리소스를 삭제하여 비용이 계속 청구되지 않게 할 수 있습니다. 자세한 내용은 삭제를 참조하세요.

시작하기 전에

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. Compute Engine API 사용 설정

    API 사용 설정

  5. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  6. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  7. Compute Engine API 사용 설정

    API 사용 설정

  8. 콘솔에서 Cloud Shell을 활성화합니다.

    Cloud Shell 활성화

    콘솔 하단에 Cloud Shell 세션이 시작되고 명령줄 프롬프트가 표시됩니다. Cloud Shell은 Google Cloud CLI가 사전 설치된 셸 환경으로, 현재 프로젝트의 값이 이미 설정되어 있습니다. 세션이 초기화되는 데 몇 초 정도 걸릴 수 있습니다.

Slurm 클러스터 배포

이 섹션에서는 클러스터 구성을 준비하고 Terraform을 사용하여 Google Cloud에 Slurm 클러스터를 배포한 다음 클러스터가 작동하는지 확인합니다.

클러스터 구성 준비

  1. Cloud Shell에서 slurm-gcp GitHub 저장소를 클론합니다.

    git clone https://github.com/SchedMD/slurm-gcp.git
    
  2. Terraform 스크립트에 필요한 Python 라이브러리를 설치합니다.

    python -m pip install -r slurm-gcp/scripts/requirements.txt
    
  3. terraform/slurm_cluster/examples/slurm_cluster/cloud/full 폴더에서 example.tfvars 파일을 full.tfvars 파일에 복사합니다.

    cd slurm-gcp/terraform/slurm_cluster/examples/slurm_cluster/cloud/full
    cp example.tfvars full.tfvars
    
  4. sed 명령어를 사용하여 환경의 full.tfvars 파일을 수정합니다.

    sed -i "s/<PROJECT_ID>/$(gcloud config get-value core/project)/" full.tfvars
    
  5. (선택사항) 텍스트 편집기에서 사전 설정 값을 변경하여 환경의 full.tfvars 파일을 맞춤설정합니다.

    • machine_type: 클러스터의 컴퓨팅 노드에 다른 머신 유형을 사용하려면 이 값을 변경합니다. 예를 들어 기본 n1-standard-4 머신 유형에서 사용할 수 있는 CPU 코어나 메모리보다 많이 필요하면 이 값을 변경합니다. 자세한 내용은 머신 유형을 참조하세요.
    • disk_type: 컴퓨팅 노드에서 SSD를 사용하려면 이 값을 pd-ssd로 변경합니다. 자세한 내용은 스토리지 옵션을 참조하세요.
    • disk_size_gb: 컴퓨팅 노드에 연결된 디스크보다 크거나 작은 디스크를 사용하려면 이 값을 변경합니다.
  6. (선택사항) 텍스트 편집기에서 추가 Terraform 변수 선언의 주석 처리를 삭제하여 환경의 full.tfvars 파일을 추가로 맞춤설정합니다.

Terraform을 사용하여 Slurm 클러스터 배포

이 섹션에서는 makefile을 실행하여 클러스터를 만들고 배포합니다.

  1. Cloud Shell에서 tfvars 파일을 적용하여 클러스터를 구성하고 배포합니다.

    make apply TFVARS=full.tfvars
    
  2. 클러스터 구성을 완료하는 데 5~10분이 걸립니다. 구성 진행 상황을 추적합니다.

    export CLUSTER_ZONE=$(gcloud compute instances list \
           --filter="name ~ .*controller" --format="value(zone)")
    gcloud compute ssh full-controller \
        --command "sudo journalctl -fu google-startup-scripts.service" \
        --zone $CLUSTER_ZONE
    

    스크립트가 완료되면 Slurm 클러스터를 사용할 수 있습니다. 출력은 다음 줄로 끝납니다.

    Started Google Compute Engine Startup Scripts.
    
  3. 구성 확인을 중단하려면 Control + C를 누릅니다.

클러스터가 작동하는지 확인

  1. Cloud Shell에서 로그인 노드에 로그인하여 클러스터가 준비되었는지 확인합니다.

    export CLUSTER_LOGIN_NODE=$(gcloud compute instances list \
           --filter="name ~ .*login." --format="value(name)")
    export CLUSTER_ZONE=$(gcloud compute instances list \
           --filter="name ~ .*login." --format="value(zone)")
    gcloud compute ssh ${CLUSTER_LOGIN_NODE} \
        --zone $CLUSTER_ZONE
    

    출력이 다음과 유사하면 클러스터가 준비된 것입니다.

                                     SSSSSSS
                                    SSSSSSSSS
                                    SSSSSSSSS
                                    SSSSSSSSS
                            SSSS     SSSSSSS     SSSS
                           SSSSSS               SSSSSS
                           SSSSSS    SSSSSSS    SSSSSS
                            SSSS    SSSSSSSSS    SSSS
                    SSS             SSSSSSSSS             SSS
                   SSSSS    SSSS    SSSSSSSSS    SSSS    SSSSS
                    SSS    SSSSSS   SSSSSSSSS   SSSSSS    SSS
                           SSSSSS    SSSSSSS    SSSSSS
                    SSS    SSSSSS               SSSSSS    SSS
                   SSSSS    SSSS     SSSSSSS     SSSS    SSSSS
              S     SSS             SSSSSSSSS             SSS     S
             SSS            SSSS    SSSSSSSSS    SSSS            SSS
              S     SSS    SSSSSS   SSSSSSSSS   SSSSSS    SSS     S
                   SSSSS   SSSSSS   SSSSSSSSS   SSSSSS   SSSSS
              S    SSSSS    SSSS     SSSSSSS     SSSS    SSSSS    S
        S    SSS    SSS                                   SSS    SSS    S
        S     S                                                   S     S
                    SSS
                    SSS
                    SSS
                    SSS
     SSSSSSSSSSSS   SSS   SSSS       SSSS    SSSSSSSSS   SSSSSSSSSSSSSSSSSSSS
    SSSSSSSSSSSSS   SSS   SSSS       SSSS   SSSSSSSSSS  SSSSSSSSSSSSSSSSSSSSSS
    SSSS            SSS   SSSS       SSSS   SSSS        SSSS     SSSS     SSSS
    SSSS            SSS   SSSS       SSSS   SSSS        SSSS     SSSS     SSSS
    SSSSSSSSSSSS    SSS   SSSS       SSSS   SSSS        SSSS     SSSS     SSSS
     SSSSSSSSSSSS   SSS   SSSS       SSSS   SSSS        SSSS     SSSS     SSSS
             SSSS   SSS   SSSS       SSSS   SSSS        SSSS     SSSS     SSSS
             SSSS   SSS   SSSS       SSSS   SSSS        SSSS     SSSS     SSSS
    SSSSSSSSSSSSS   SSS   SSSSSSSSSSSSSSS   SSSS        SSSS     SSSS     SSSS
    SSSSSSSSSSSS    SSS    SSSSSSSSSSSSS    SSSS        SSSS     SSSS     SSSS
    
  2. 클러스터가 준비되면 작업을 예약하여 제대로 작동하는지 확인합니다. 이 작업은 클러스터의 여러 노드에서 hostname 명령어를 실행합니다.

    sbatch -N2 --wrap="srun hostname"
    

    작업이 완료되면 squeue 명령어가 항목을 반환하지 않고 출력 파일 slurm-*.out이 표시됩니다.

  3. 작업 출력을 표시합니다.

    cat slurm-*.out
    

    출력은 다음과 비슷합니다.

        full-debug-test-0
        full-debug-test-1
    

    이제 작업 클러스터가 준비되었습니다.

  4. 클러스터를 종료하려면 Control+D를 누릅니다.

Slurm 클러스터 자동 확장

Slurm 클러스터를 배포할 때 max_node_countstatic_node_count 속성의 값을 지정합니다. max_node_count 값은 클러스터가 특정 시점에 실행하는 최대 컴퓨팅 노드 수를 결정합니다. static_node_count 값은 항상 실행 중인 컴퓨팅 노드의 수를 지정합니다. 기본적으로 slurm-cluster.yaml 파일은 max_node_count10으로, static_node_count2로 설정합니다.

이 두 숫자 간의 차이, 즉 max_node_count - static_node_count는 클러스터의 임시 노드의 수입니다. 임시 노드는 작업 예약 요청에 대한 응답으로 필요에 따라 생성됩니다. 실행하기 위해 생성된 작업이 완료되면 클러스터가 다른 작업을 실행하는 데 노드를 사용하지 않는 한 해당 노드가 삭제됩니다. Google Cloud에서 Slurm 절전 메커니즘은 필요할 때만 임시 노드를 인스턴스화하여 클러스터를 자동 확장합니다.

  1. Cloud Shell에서 클러스터의 로그인 노드에 로그인합니다.

    gcloud compute ssh ${CLUSTER_LOGIN_NODE} --zone $CLUSTER_ZONE
    
  2. 노드 수를 봅니다.

    sinfo
    

    출력은 다음과 비슷합니다.

    PARTITION AVAIL TIMELIMIT  NODES  STATE   NODELIST
    debug*    up    infinite   8      idle~   demo-compute[3-10]
    debug*    up    infinite   2      idle    demo-compute[1-2]
    

    출력의 첫 번째 줄에 있는 STATE 설명어 idle~ 서픽스는 임시 노드 8개가 절전 모드 상태임을 나타냅니다.

  3. 클러스터를 자동 확장하려면 임시 노드를 3개 만듭니다.

    sbatch -N5 --wrap="srun hostname"
    

    출력은 다음과 유사합니다.

    Submitted batch job JOB_ID
    
  4. 노드 수를 다시 확인합니다.

    sinfo
    

    출력은 다음과 비슷합니다.

    PARTITION AVAIL  TIMELIMIT  NODES  STATE   NODELIST
    debug*    up     infinite   3      alloc#  demo-compute[3-5]
    debug*    up     infinite   5      idle~   demo-compute[6-10]
    debug*    up     infinite   2      idle    demo-compute[1-2]
    

    출력의 첫 번째 줄에 있는 STATE 설명어 alloc# 서픽스는 임시 노드 3개가 생성되었음을 나타냅니다. 추가 노드는 생성 및 구성된 후 작업을 실행하고 잠시 후에 삭제됩니다.

  5. 클러스터를 종료하려면 Control+D를 누릅니다.

정리

비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 Cloud 프로젝트를 삭제하는 것입니다. 또는 개별 리소스를 삭제할 수 있습니다.

Slurm 클러스터 삭제

  • 다음과 같이 클러스터를 삭제합니다.

    terraform destroy -var-file=full.tfvars -auto-approve
    

프로젝트 삭제

  1. 콘솔에서 리소스 관리 페이지로 이동합니다.

    리소스 관리로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.

다음 단계

  • Google Cloud에 대한 참조 아키텍처, 다이어그램, 튜토리얼, 권장사항 살펴보기. Cloud 아키텍처 센터 살펴보기