Compute Engine에 Slurm 클러스터 배포

이 가이드에서는 Compute Engine에 Slurm 클러스터를 배포하는 방법을 보여줍니다. Slurm Resource Manager는 여러 고성능 컴퓨팅 센터에서 널리 사용되는 리소스 관리자입니다. 고성능 컴퓨팅 용어 및 사용 사례에 대한 설명은 클라우드에서 대규모 기술 컴퓨팅을 위한 클러스터 사용을 참조하세요.

다음 다이어그램은 이 가이드에서 만드는 구성을 보여줍니다.

Compute Engine에 설치된 Slurm 클러스터를 보여주는 아키텍처 다이어그램

클러스터 워크로드 관리자로서 Slurm은 다음을 수행합니다.

  • 리소스(컴퓨팅 노드)를 사용자에게 할당합니다.
  • 노드에서 시작, 실행, 모니터링 작업을 위한 구조를 제공합니다.
  • 대기 중인 작업의 큐를 관리합니다.

이 가이드용으로 개발된 배포는 단일 앱 워크로드를 실행하는 일부 사용자를 지원하는 간소화된 클러스터 아키텍처입니다. 온프레미스 또는 멀티 클라우드 클러스터로 작동하는 멀티 워크로드 배포, 대규모 프로덕션 배포, 하이브리드 배포에는 다른 구성을 사용할 수 있지만, 이 가이드에서는 이러한 구성을 다루지 않습니다.

이 가이드에서는 로그인(헤드) 노드를 사용하여 시스템과 상호작용합니다. 클러스터를 배포한 후 SSH를 사용하여 로그인 노드에 연결하고 앱을 설치한 다음, Slurm 명령줄 도구를 사용하여 계산할 작업을 제출합니다. 컨트롤러 노드에서 실행되는 Slurm 스케줄러는 사용 가능한 리소스를 작업 요구사항에 맞춰 큐에 추가된 작업을 예약하고 컴퓨팅 노드에서 작업 실행을 관리합니다. NFS 서버는 파일의 공통 공유 공간을 제공합니다.

목표

  • Cloud Deployment Manager를 사용하여 Slurm 클러스터를 배포합니다.
  • Slurm을 사용하여 작업을 실행합니다.
  • 클러스터 정보를 쿼리하고 Slurm에서 실행 중인 작업을 모니터링합니다.
  • 작업 매개변수 및 요구사항을 수용하도록 노드를 자동 확장합니다.

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

이 가이드를 마치면 만든 리소스를 삭제하여 비용이 계속 청구되지 않게 할 수 있습니다. 자세한 내용은 삭제를 참조하세요.

시작하기 전에

  1. Google 계정으로 로그인합니다.

    아직 계정이 없으면 새 계정을 등록하세요.

  2. Cloud Console의 프로젝트 선택기 페이지에서 Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기 페이지로 이동

  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. Compute Engine and Deployment Manager API를 사용 설정합니다.

    API 사용 설정

  5. Cloud Console에서 Cloud Shell을 활성화합니다.

    Cloud Shell 활성화

    Cloud Console 하단에 Cloud Shell 세션이 시작되고 명령줄 프롬프트가 표시됩니다. Cloud Shell은 gcloud 명령줄 도구가 포함되고 Cloud SDK가 사전 설치된 셸 환경으로, 현재 프로젝트의 값이 이미 설정되어 있습니다. 세션이 초기화되는 데 몇 초 정도 걸릴 수 있습니다.

Slurm 클러스터 배포

이 섹션에서는 클러스터 구성을 준비하고 Deployment Manager를 사용하여 Google Cloud에 Slurm 클러스터를 배포한 다음 클러스터가 작동하는지 확인합니다.

클러스터 구성 준비

  1. Cloud Shell에서 slurm-gcp GitHub 저장소를 클론합니다.

    git clone https://github.com/SchedMD/slurm-gcp.git
    
  2. 다음 환경 변수를 정의합니다.

    export CLUSTER_DEPLOY_NAME="cluster-deployment-name"
    export CLUSTER_NAME="cluster-name"
    export CLUSTER_REGION="cluster-region"
    export CLUSTER_ZONE="cluster-zone"
    

    다음을 바꿉니다.

    • cluster-deployment-name: 클러스터 배포의 고유한 이름입니다.
    • cluster-name: 클러스터의 고유한 이름입니다.
    • cluster-region: 클러스터를 배포하는 리전입니다. 내 위치와 가까운 리전을 선택합니다. 자세한 내용은 리전 및 영역을 참조하세요.
    • cluster-zone: 클러스터를 배포하는 영역입니다.
  3. slurm-gcp 폴더에서 slurm-cluster.yaml 파일을 ${CLUSTER_DEPLOY_NAME}.yaml 파일에 복사합니다.

    cd slurm-gcp
    cp slurm-cluster.yaml ${CLUSTER_DEPLOY_NAME}.yaml
    
  4. 텍스트 편집기에서 환경에 대한 ${CLUSTER_DEPLOY_NAME}.yaml 파일을 찾습니다. default_users 값을 제외한 모든 구성 속성에 대한 기본값 및 허용 가능한 값을 지정하는 slurm.jinja.schema 파일에 정의된 유형을 사용합니다. 다음과 같은 필수 변경사항을 적용합니다.

    • cluster_name: 클러스터 이름을 cluster-name으로 변경합니다.
    • regionzone: cluster-regioncluster-zone으로 바꿉니다.
    • compute_machine_type: (선택사항) 다른 머신 유형을 사용하려면 compute_machine_type 값을 변경합니다. 예를 들어 기본 선택인 n1-standard-2에서 사용할 수 있는 것보다 많은 CPU 코어 또는 메모리가 필요하면 n1-standard-4를 선택합니다. 자세한 내용은 머신 유형을 참조하세요.
    • vpc_netvpc_subnet: (선택사항) 기존 Virtual Private Cloud(VPC) 네트워크 및 VPC 서브넷을 사용합니다. 네트워크 및 서브넷 요구사항은 slurm.jinja.schema 파일에 설명되어 있습니다. 값을 지정하지 않으면 클러스터의 새로운 네트워크 또는 서브넷이 생성됩니다. 자세한 내용은 VPC 네트워크를 참조하세요.
  5. 파일을 저장합니다.

Deployment Manager를 사용하여 Slurm 클러스터 배포

  1. Cloud Shell에서 Deployment Manager를 사용하여 클러스터를 Google Cloud에 배포합니다.

    gcloud deployment-manager deployments \
        --project="$(gcloud config get-value core/project)" \
        create $CLUSTER_DEPLOY_NAME \
        --config ${CLUSTER_DEPLOY_NAME}.yaml
    

    출력은 다음과 비슷합니다.

    The fingerprint of the deployment is VWVaIYX1mFpjv9UDhzalYQ==
    Waiting for create [operation-1582142432278-59ef33da8f6fa-f5785d68-21feb545]...done.
    Create operation operation-1582142432278-59ef33da8f6fa-f5785d68-21feb545 completed successfully.
    NAME                                   TYPE                   STATE       ERRORS  INTENT
    helloworld-all-internal-firewall-rule  compute.v1.firewall    IN_PREVIEW  []      CREATE_OR_ACQUIRE
    helloworld-compute-image               compute.v1.instance    IN_PREVIEW  []      CREATE_OR_ACQUIRE
    helloworld-compute1                    compute.v1.instance    IN_PREVIEW  []      CREATE_OR_ACQUIRE
    helloworld-compute2                    compute.v1.instance    IN_PREVIEW  []      CREATE_OR_ACQUIRE
    helloworld-controller                  compute.v1.instance    IN_PREVIEW  []      CREATE_OR_ACQUIRE
    helloworld-login1                      compute.v1.instance    IN_PREVIEW  []      CREATE_OR_ACQUIRE
    helloworld-router                      compute.v1.router      IN_PREVIEW  []      CREATE_OR_ACQUIRE
    helloworld-slurm-network               compute.v1.network     IN_PREVIEW  []      CREATE_OR_ACQUIRE
    helloworld-slurm-subnet                compute.v1.subnetwork  IN_PREVIEW  []      CREATE_OR_ACQUIRE
    helloworld-ssh-firewall-rule           compute.v1.firewall    IN_PREVIEW  []      CREATE_OR_ACQUIRE
    
  2. 클러스터 구성을 완료하는 데 5~10분이 걸립니다. 구성 진행 상황을 추적합니다.

    gcloud compute ssh ${CLUSTER_NAME}-controller \
        --command "sudo journalctl -fu google-startup-scripts.service" \
        --zone $CLUSTER_ZONE
    

    스크립트가 완료되면 Slurm 클러스터를 사용할 수 있습니다. 출력은 다음 줄로 끝납니다.

    Started Google Compute Engine Startup Scripts.
    
  3. 구성 확인을 중단하려면 Control + C를 누릅니다.

클러스터가 작동하는지 확인

  1. Cloud Shell에서 로그인 노드에 로그인하여 클러스터가 준비되었는지 확인합니다.

    export CLUSTER_LOGIN_NODE=$(gcloud compute instances list \
        --zones ${CLUSTER_ZONE} \
        --filter="name ~ .*login." \
        --format="value(name)" | head -n1)
    gcloud compute ssh ${CLUSTER_LOGIN_NODE} \
        --zone $CLUSTER_ZONE
    

    출력이 다음과 유사하면 클러스터가 준비된 것입니다.

                                     SSSSSSS
                                    SSSSSSSSS
                                    SSSSSSSSS
                                    SSSSSSSSS
                            SSSS     SSSSSSS     SSSS
                           SSSSSS               SSSSSS
                           SSSSSS    SSSSSSS    SSSSSS
                            SSSS    SSSSSSSSS    SSSS
                    SSS             SSSSSSSSS             SSS
                   SSSSS    SSSS    SSSSSSSSS    SSSS    SSSSS
                    SSS    SSSSSS   SSSSSSSSS   SSSSSS    SSS
                           SSSSSS    SSSSSSS    SSSSSS
                    SSS    SSSSSS               SSSSSS    SSS
                   SSSSS    SSSS     SSSSSSS     SSSS    SSSSS
              S     SSS             SSSSSSSSS             SSS     S
             SSS            SSSS    SSSSSSSSS    SSSS            SSS
              S     SSS    SSSSSS   SSSSSSSSS   SSSSSS    SSS     S
                   SSSSS   SSSSSS   SSSSSSSSS   SSSSSS   SSSSS
              S    SSSSS    SSSS     SSSSSSS     SSSS    SSSSS    S
        S    SSS    SSS                                   SSS    SSS    S
        S     S                                                   S     S
                    SSS
                    SSS
                    SSS
                    SSS
     SSSSSSSSSSSS   SSS   SSSS       SSSS    SSSSSSSSS   SSSSSSSSSSSSSSSSSSSS
    SSSSSSSSSSSSS   SSS   SSSS       SSSS   SSSSSSSSSS  SSSSSSSSSSSSSSSSSSSSSS
    SSSS            SSS   SSSS       SSSS   SSSS        SSSS     SSSS     SSSS
    SSSS            SSS   SSSS       SSSS   SSSS        SSSS     SSSS     SSSS
    SSSSSSSSSSSS    SSS   SSSS       SSSS   SSSS        SSSS     SSSS     SSSS
     SSSSSSSSSSSS   SSS   SSSS       SSSS   SSSS        SSSS     SSSS     SSSS
             SSSS   SSS   SSSS       SSSS   SSSS        SSSS     SSSS     SSSS
             SSSS   SSS   SSSS       SSSS   SSSS        SSSS     SSSS     SSSS
    SSSSSSSSSSSSS   SSS   SSSSSSSSSSSSSSS   SSSS        SSSS     SSSS     SSSS
    SSSSSSSSSSSS    SSS    SSSSSSSSSSSSS    SSSS        SSSS     SSSS     SSSS
    
  2. 클러스터를 종료하려면 Control+D를 누릅니다.

  3. 클러스터가 준비되면 작업을 예약하여 제대로 작동하는지 확인합니다. 이 작업은 클러스터의 여러 노드에서 hostname 명령어를 실행합니다.

    gcloud compute ssh ${CLUSTER_NAME}-login1 \
        --command 'sbatch -N2 --wrap="srun hostname"' --zone $CLUSTER_ZONE
    
    gcloud compute ssh ${CLUSTER_NAME}-login1 \
        --command 'cat slurm-*.out'  --zone $CLUSTER_ZONE
    

    출력은 다음과 비슷합니다.

    helloworld-compute1
    helloworld-compute2
    

    이제 작업 클러스터가 준비되었습니다.

Slurm 클러스터 자동 확장

Slurm 클러스터를 배포할 때 max_node_countstatic_node_count 속성의 값을 지정합니다. max_node_count 값은 클러스터가 특정 시점에 실행하는 최대 컴퓨팅 노드 수를 결정합니다. static_node_count 값은 항상 실행 중인 컴퓨팅 노드의 수를 지정합니다. 기본적으로 slurm-cluster.yaml 파일은 max_node_count10으로, static_node_count2로 설정합니다.

이 두 숫자 간의 차이, 즉 max_node_count - static_node_count는 클러스터의 임시 노드의 수입니다. 임시 노드는 작업 예약 요청에 대한 응답으로 필요에 따라 생성됩니다. 실행하기 위해 생성된 작업이 완료되면 클러스터가 다른 작업을 실행하는 데 노드를 사용하지 않는 한 해당 노드가 삭제됩니다. Google Cloud에서 Slurm 절전 메커니즘은 필요할 때만 임시 노드를 인스턴스화하여 클러스터를 자동 확장합니다.

  1. Cloud Shell에서 노드 수를 확인합니다.

    sinfo
    

    출력은 다음과 비슷합니다.

    PARTITION AVAIL TIMELIMIT  NODES  STATE   NODELIST
    debug*    up    infinite   8      idle~   demo-compute[3-10]
    debug*    up    infinite   2      idle    demo-compute[1-2]
    

    출력의 첫 번째 줄에 있는 STATE 설명어 idle~ 서픽스는 임시 노드 8개가 절전 모드 상태임을 나타냅니다.

  2. 클러스터를 자동 확장하려면 임시 노드를 3개 만듭니다.

    sbatch -N5 --wrap="srun hostname"
    

    출력은 다음과 유사합니다.

    Submitted batch job JOB_ID
    
  3. 노드 수를 다시 확인합니다.

    sinfo
    

    출력은 다음과 비슷합니다.

    PARTITION AVAIL  TIMELIMIT  NODES  STATE   NODELIST
    debug*    up     infinite   3      alloc#  demo-compute[3-5]
    debug*    up     infinite   5      idle~   demo-compute[6-10]
    debug*    up     infinite   2      idle    demo-compute[1-2]
    

    출력의 첫 번째 줄에 있는 STATE 설명어 alloc# 서픽스는 임시 노드 3개가 생성되었음을 나타냅니다. 추가 노드는 생성 및 구성된 후 작업을 실행하고 잠시 후에 삭제됩니다.

삭제

비용이 청구되지 않도록 하는 가장 쉬운 방법은 가이드에서 만든 Cloud 프로젝트를 삭제하는 것입니다. 또는 개별 리소스를 삭제할 수 있습니다.

프로젝트 삭제

  1. Cloud Console에서 리소스 관리 페이지로 이동합니다.

    리소스 관리 페이지로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제 를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 다음 종료를 클릭하여 프로젝트를 삭제합니다.

Slurm 클러스터 삭제

  • 다음과 같이 클러스터를 삭제합니다.

    gcloud deployment-manager deployments delete slurm
    

다음 단계

  • 다른 Google Cloud 기능을 직접 사용해보세요. 가이드 살펴보기.