Intel Select Solution の HPC クラスタの作成


Slurm-GCP ワークロード マネージャーを使用して、HPC 仮想マシン(VM)イメージに基づいて、Intel Select Solution のシミュレーション / モデリング基準を満たすクラスタを作成します。

Google Cloud で Intel Select Solution による検証済みの HPC 環境を作成すると、環境は次の条件を満たすことになります。

  • HPC ワークロード用に最適化されている。
  • Intel Select Solution の検証に必要なソフトウェア、システム、ソリューションのパフォーマンス基準に適合している。
  • Intel HPC アプリケーション カタログに記載されているアプリケーションとの互換性が確認されている。

Slurm-GCP を使用して Intel Select Solution で検証されたクラスタを作成する

  1. Slurm-GCP GitHub リポジトリ Intel Select ブランチのクローンを作成します(これは現在プレビュー版です)。

    git clone --branch intel-select https://github.com/schedmd/slurm-gcp
    
  2. クラスタの Slurm-GCP イメージを作成します。Slurm-GCP イメージは HPC VM イメージから派生します。

    cd foundry
    python3 foundry.py --intel_image
    

    このコマンドは、コンピューティング ノード イメージとコントローラ ノード イメージを作成します。前者の作成には約 1 分、後者の作成には約 7 分かかります。

  3. ディレクトリを tf/examples/basic/ に変更し、basic.tfvars.example ファイルから basic.tfvars ファイルを作成します。Terraform 構成ファイルの intel_select_solution オプションを full_config または software_only に設定します。

    • full_config: このオプションは、マシンタイプとコントローラの起動サイズの構成を確認します。このオプションを使用する場合は、コンピューティング ノードの machine_typec2-standard-60 に、コントローラ ノードの controller_disk_size_gb を 215 GB 以上に設定します。
    • software_only: このオプションはソフトウェア要件のみをチェックします。マシンタイプやコントローラの起動サイズは確認されません。
  4. 次のように、Slurm-GCP Terraform スクリプトを実行してクラスタをデプロイします。-var-file=basic.tfvars フラグは、クラスタ構成が Intel HPC Platform 仕様と Intel Select Solution のシミュレーション / モデリング基準の要件を満たしていることを確認するように Terraform に指示します。

    terraform init
    terraform apply -var-file=basic.tfvars
    

Intel Cluster Checker を使用してコンプライアンスを確認する

  1. ログインノードに SSH で接続します。

  2. ログインノードの .bashrc ファイルに次の行を追加して、環境構成を読み込みます。

    export PATH=/apps/intelpython3/bin/:/sbin:/bin:/usr/sbin:/usr/bin:$PATH
    source /apps/clck/2019.10/bin/clckvars.sh
    source /apps/psxe_runtime/linux/bin/psxevars.sh
    
  3. パスワードを必要としない SSH を有効にします。

    ssh-keygen
    cat .ssh/id_rsa.pub >> .ssh/authorized_keys
    chmod 644 .ssh/authorized_keys
    
  4. Intel Cluster Checker を実行して、出力に Validation PASS が含まれていることを確認します。詳細については、Intel Cluster Checker の公式ドキュメントをご覧ください。

    salloc -N $num_of_node_to_check
    clck -F intel_hpc_platform_compat-hpc-2018.0
    

クリーンアップ

作成した VM イメージに課金されないようにするには、次のコマンドを実行してイメージを削除します。

gcloud compute images delete schedmd-slurm-hpc-intel-compute \
             schedmd-slurm-hpc-intel-controller

次のステップ