Slurm-GCP ワークロード マネージャーを使用して、HPC 仮想マシン(VM)イメージに基づいて、Intel Select Solution のシミュレーション / モデリング基準を満たすクラスタを作成します。
Google Cloud で Intel Select Solution による検証済みの HPC 環境を作成すると、環境は次の条件を満たすことになります。
- HPC ワークロード用に最適化されている。
- Intel Select Solution の検証に必要なソフトウェア、システム、ソリューションのパフォーマンス基準に適合している。
- Intel HPC アプリケーション カタログに記載されているアプリケーションとの互換性が確認されている。
Slurm-GCP を使用して Intel Select Solution で検証されたクラスタを作成する
Slurm-GCP GitHub リポジトリ Intel Select ブランチのクローンを作成します(これは現在プレビュー版です)。
git clone --branch intel-select https://github.com/schedmd/slurm-gcp
クラスタの Slurm-GCP イメージを作成します。Slurm-GCP イメージは HPC VM イメージから派生します。
cd foundry python3 foundry.py --intel_image
このコマンドは、コンピューティング ノード イメージとコントローラ ノード イメージを作成します。前者の作成には約 1 分、後者の作成には約 7 分かかります。
ディレクトリを
tf/examples/basic/
に変更し、basic.tfvars.example
ファイルからbasic.tfvars
ファイルを作成します。Terraform 構成ファイルのintel_select_solution
オプションをfull_config
またはsoftware_only
に設定します。full_config
: このオプションは、マシンタイプとコントローラの起動サイズの構成を確認します。このオプションを使用する場合は、コンピューティング ノードのmachine_type
をc2-standard-60
に、コントローラ ノードのcontroller_disk_size_gb
を 215 GB 以上に設定します。software_only
: このオプションはソフトウェア要件のみをチェックします。マシンタイプやコントローラの起動サイズは確認されません。
次のように、Slurm-GCP Terraform スクリプトを実行してクラスタをデプロイします。
-var-file=basic.tfvars
フラグは、クラスタ構成が Intel HPC Platform 仕様と Intel Select Solution のシミュレーション / モデリング基準の要件を満たしていることを確認するように Terraform に指示します。terraform init terraform apply -var-file=basic.tfvars
Intel Cluster Checker を使用してコンプライアンスを確認する
ログインノードに SSH で接続します。
ログインノードの
.bashrc
ファイルに次の行を追加して、環境構成を読み込みます。export PATH=/apps/intelpython3/bin/:/sbin:/bin:/usr/sbin:/usr/bin:$PATH source /apps/clck/2019.10/bin/clckvars.sh source /apps/psxe_runtime/linux/bin/psxevars.sh
パスワードを必要としない SSH を有効にします。
ssh-keygen cat .ssh/id_rsa.pub >> .ssh/authorized_keys chmod 644 .ssh/authorized_keys
Intel Cluster Checker を実行して、出力に
Validation PASS
が含まれていることを確認します。詳細については、Intel Cluster Checker の公式ドキュメントをご覧ください。salloc -N $num_of_node_to_check clck -F intel_hpc_platform_compat-hpc-2018.0
クリーンアップ
作成した VM イメージに課金されないようにするには、次のコマンドを実行してイメージを削除します。
gcloud compute images delete schedmd-slurm-hpc-intel-compute \ schedmd-slurm-hpc-intel-controller
次のステップ
- Google Cloud のハイ パフォーマンス コンピューティングの詳細を学習する。