전산응용공학(CAE)은 구조 분석, 유체 역학, 장애 안전, 열 분석 등 다양한 응용 분야를 포괄합니다. 이러한 모든 사용 사례에서 관련된 물리학의 복잡한 시뮬레이션과 잠재적으로 대용량 입력 및 출력 데이터를 처리하려면 상당한 양의 컴퓨팅 리소스가 필요합니다. 이 기술 참조 가이드에서는 Google Cloud를 활용하여 고성능 컴퓨팅(HPC) 리소스를 제공하여 CAE 워크플로를 가속화하는 방법을 설명합니다.
Google Cloud HPC 플랫폼은 까다로운 CAE 워크플로를 위한 강력하고 확장 가능한 플랫폼을 제공합니다. 기존 HPC 시스템의 성능과 전 세계적인 규모의 탄력적이고 유연한 클라우드의 장점이 결합되어 있습니다.
CAE 워크플로에 Google Cloud를 사용하는 과정을 간소화하기 위해 컴퓨팅 집약적인 CAE 워크로드의 요구사항을 충족하는 적절한 클라우드 구성요소를 조합했습니다. 특히 Google CAE 솔루션은 최신 Intel Xeon 플랫폼을 기반으로 Google Cloud의 H3 및 C3 VM 제품군을 중심으로 설계되었습니다. 이러한 VM 제품군은 균형 잡힌 메모리/플롭 비율에 높은 메모리 대역폭을 제공하므로 CAE에 가장 적합합니다. 이 솔루션은 긴밀하게 결합된 MPI 애플리케이션뿐만 아니라 최대 16GB/코어의 메모리 집약적 워크로드를 지원합니다. 여기에는 광범위한 IO 요구사항을 처리하는 다양한 스토리지 옵션이 포함되어 있습니다. 리소스 관리를 위해 SchedMD의 Slurm 및 Altair의 PBS Professional과 같은 스케줄러를 지원합니다.
다음 아키텍처 다이어그램은 솔루션을 보여줍니다.
CAE 솔루션 아키텍처는 컴퓨팅, 네트워킹, 스토리지, Google 오픈소스 Cloud HPC Toolkit을 포함한 여러 가지 주요 구성요소로 구성되어 있습니다.
CAE 솔루션은 Google Compute Engine에 빌드됩니다. Compute Engine은 GPU가 있는 머신 유형을 포함하여 다양한 머신 유형을 제공합니다. Compute Engine은 특화된 VM 유형과 고성능 네트워킹으로 인해 고성능과 유연성이 필요한 CAE 워크로드에 적합합니다.
H3 VM: CAE 워크로드에 적합한 균형 잡힌 파티션은 4GB/코어 및 최대 수천 개의 코어(MPI 사용)를 갖춘 Intel의 최신 Sapphire Rapids를 사용하는 Google의 HPC VM에서 빌드됩니다.
C3 VM: 메모리 집약적인 CAE 워크로드에 적합한 고성능 메모리 파티션은 Intel의 최신 16GB/코어 Sapphire Rapids 세대를 통해 Google C3 VM에서 빌드되었습니다.
배치 정책: 배치 정책은 VM이 서로 인접하도록 생성하여 VM 간 통신 지연 시간을 줄이고 전반적인 성능을 개선할 수 있습니다.
HPC VM 이미지: Google은 최적의 성능을 확보하기 위해 Google Cloud에서 최적의 성능을 위해 표준 Linux 운영체제 배포판을 구성하는 HPC VM 이미지를 제공합니다.
범용 VM: 로그인 노드, 라이선스 서버, 기타 태스크에 사용됩니다.
원격 데스크톱 VM - 원격 데스크톱 세션 및 원격 시각화에 사용됩니다.
Google 가상 프라이빗 클라우드(VPC): Google VPC는 프로젝트용 물리적 네트워크의 가상 버전입니다.
Google Cloud Connectivity: Google Cloud Connectivity를 사용하면 고가용성과 짧은 지연 시간으로 온프레미스 네트워크를 Google Cloud에 연결하고 확장할 수 있습니다.
Google Cloud VPN: Google Cloud VPN은 피어 네트워크를 가상 프라이빗 클라우드(VPC) 네트워크에 안전하게 연결합니다.
gVNIC: Google 가상 NIC는 컴퓨팅 VM 간에 우수한 성능과 짧은 지연 시간을 제공하는 가상 네트워크 인터페이스 카드(NIC)로 높은 네트워크 성능이 필요한 CAE 워크로드에 적합합니다.
Google Filestore: Filestore는 고성능과 짧은 지연 시간을 제공하는 완전 관리형 NFS 서비스입니다. Filestore는 애플리케이션 또는 홈 디렉터리와 같은 네트워크 전반에서 공유되거나 표시되어야 하는 데이터에 적합합니다.
병렬 파일 시스템: Google Cloud는 여러 스토리지 공급업체와 협력하여 다양한 HPC 워크로드용 병렬 파일 시스템을 제공합니다. 이러한 파트너로는 NetApp, DDN EXAScaler, Sycomp Spectrum Scale, Weka 등이 있습니다.
Google Storage Transfer Service: 관리형 Storage Transfer Service를 사용하면 Google Cloud, Amazon, Azure, 온프레미스 전반에서 객체와 파일 스토리지 간에 빠르고 안전하게 데이터를 전송할 수 있습니다.
Google Cloud Storage: Cloud Storage는 확장 가능하고 내구성이 우수한 객체 스토리지 서비스입니다. Cloud Storage는 많은 양의 데이터를 저장하거나 데이터 전송에 사용하기에 적합합니다.
Google Cloud HPC Toolkit - Google의 오픈소스 Cloud HPC Toolkit을 사용하면 고객과 파트너가 Google Cloud의 HPC 권장사항에 따라 반복 가능한 턴키 HPC 환경을 쉽게 배포할 수 있습니다. Google의 CAE 솔루션에는 CAE 워크로드를 실행할 준비가 완료된 HPC 환경을 Google Cloud에서 손쉽게 인스턴스화할 수 있도록 지원하는 HPC Toolkit 청사진이 함께 제공됩니다.
클라우드에서 CAE 워크로드를 실행할 때는 다음을 포함하여 여러 가지 요소를 고려해야 합니다.
Google Cloud CAE 솔루션의 일부로 Google은 범용 CAE 참조 아키텍처 및 청사진을 개발했으며, 이를 Google의 Cloud HPC Toolkit과 함께 간단히 사용하여 Google Cloud에서 CAE 아키텍처를 프로비저닝할 수 있습니다. Google은 다음을 비롯하여 여러 주요 ISV 애플리케이션의 호환성 및 성능을 확인했습니다.
이러한 소프트웨어 패키지 성능은 아래의 벤치마크 섹션을 참조하세요.
범용 CAE 참조 아키텍처 청사진을 사용하면 다양한 CAE 애플리케이션 및 워크플로와 호환되는 클라우드 환경을 즉시 실행할 수 있습니다. 이는 CAE 소프트웨어를 유연하게 선택하고 자체 HPC 환경을 관리하려는 사용자에게 적합한 옵션입니다. 또한 Google Cloud에서 CAE 시뮬레이션 실행에 대한 Google 권장사항을 활용하여 시스템 통합업체의 출발점 역할도 합니다.
또한 Google Cloud는 널리 사용되는 CAE 소프트웨어를 위한 여러 애플리케이션별 청사진을 제공합니다. 이러한 청사진은 특정 CAE 소프트웨어에 최적의 성능을 제공하도록 사전 구성되어 있습니다. 특정 청사진이 있는 소프트웨어는 다음과 같습니다.
애플리케이션별 청사진은 CAE를 빠르고 쉽게 시작하려는 사용자에게 적합한 옵션입니다. 청사진은 특정 CAE 소프트웨어에 최적화된 사전 구성된 환경을 제공하므로 사용자가 환경을 직접 구성할 필요가 없습니다.
Google Cloud는 TotalCAE, Rescale, Parallel Works, Eviden Nimbix, Penguin Computing, NAG와 같은 여러 HPC-as-a-Service 제공업체 및 Altair와 같은 CAE ISV 공급업체와도 제휴하고 있습니다. 이러한 제공업체에서는 사전 구성된 CAE 소프트웨어 환경, 특정 CAE 애플리케이션 지원, 전문 컨설팅 서비스 등 다양한 CAE용 관리형 HPC 솔루션을 제공합니다. 이러한 제품은 CAE용 관리형 HPC 솔루션을 원하는 사용자에게 적합한 옵션입니다. 이러한 공급업체는 사전 구성된 CAE 소프트웨어 환경, 특정 CAE 애플리케이션 지원, 전문 컨설팅 서비스를 비롯한 다양한 서비스를 제공합니다.
CAE 솔루션은 Google Compute Engine을 기반으로 빌드되지만 마찬가지로 Google Kubernetes Engine 또는 Google Batch와 같은 다른 컴퓨팅 프레임워크 위에 빌드하는 것도 가능합니다. Kubernetes Engine은 컨테이너화된 환경에서 CAE 워크로드를 실행하는 데 사용할 수 있는 관리형 Kubernetes 서비스입니다. Kubernetes Engine은 확장성과 이동성이 필요한 CAE 워크로드에 적합합니다. Google Batch는 일괄 작업을 실행하기 위한 관리형 서비스입니다. Batch는 컨테이너화되지 않고 상당한 맞춤설정이나 조정이 필요하지 않은 CAE 워크로드에 적합합니다.
Cluster Toolkit에 대한 기술 가이드에서 HPC 환경 아키텍처에 대한 자세한 내용을 확인할 수 있습니다. 여기서는 인프라(컴퓨팅, 네트워크, 스토리지), 시스템 소프트웨어(스케줄러, 스토리지), 아키텍처 고려사항 등 다양한 옵션을 다룹니다.
Google Cloud에서 CAE 워크로드의 성능을 최적화하기 위해 따를 수 있는 여러 권장사항이 있습니다. 예를 들어 배치 정책을 사용하여 워크로드가 서로 가까운 컴퓨팅 리소스에 배치되도록 하면 지연 시간이 줄어들고 성능이 향상될 수 있습니다. Cloud HPC Toolkit을 사용하여 워크로드를 최적화할 수도 있습니다.
'HPC 워크로드 실행 권장사항' 가이드에는 MPI 성능을 향상시키는 방법이 설명되어 있습니다. Google Cloud의 HPC 네트워킹 엔지니어와의 협력을 통해 Open MPI와 Intel MPI 모두 Google Cloud 성능에 맞게 즉시 조정되고 최적화되었습니다.
일반 CAE 환경 청사진과 H3 VM은 표준 벤치마크 모델에서 주요 CAE ISV 애플리케이션용으로 벤치마킹되었습니다.
다음 차트는 H3 VM에서 Altair Radioss 2022.3을 실행할 때의 단일 노드 성능을 C2 VM(각각의 전체 VM)과 비교하여 보여줍니다. Altair Radioss에 일반적으로 사용되는 두 가지 벤치마크(Neon 5CARS 및 T10M) 대비 2.6배의 속도가 향상됩니다.
다음 차트는 H3 VM에서 Ansys Fluent 2022 R2를 실행할 때의 성능을 CAE 솔루션 청사진(각 경우에 전체 VM)을 사용하는 C2 VM과 비교하여 보여줍니다. Ansys Fluent에 일반적으로 사용되는 벤치마크 대비 속도가 2.8배 향상되었으며 이는 Google H3 플랫폼이 전산 유체역학 워크로드에 매우 적합하다는 것을 보여줍니다.
다음 차트는 C2 VM(각각의 전체 VM)과 비교하여 H3 VM에서 Ansys LS-DYNA R9.3.1을 실행할 때의 단일 노드 성능을 보여줍니다. Ansys LS-DYNA의 car2car 비정상 종료 벤치마크의 속도 향상은 2.7배입니다.
다음 차트는 H3 VM에서 Ansys Mechanical 2022 R1을 실행할 때의 단일 노드 성능을 C2 VM(각각의 전체 VM)과 비교하여 보여줍니다. Ansys Mechanical용 V2iter-4 벤치마크의 속도 향상은 2.8배입니다.
다음 차트는 C2 VM(각각의 경우 전체 VM)과 관련하여 H3 VM에서 OpenFOAM Foundation의 OpenFOAM v7을 실행할 때의 단일 노드 성능을 보여줍니다. OpenFOAM에 일반적으로 사용되는 벤치마크 대비 속도는 2.4배 빨라졌습니다.
다음 차트는 C2 VM(각각의 전체 VM)과 비교하여 H3 VM에서 Siemens Simcenter STAR-CCM+ 18.02.008을 실행할 때의 단일 노드 성능을 보여줍니다. Siemens Simcenter STAR-CCM+에 일반적으로 사용되는 벤치마크 대비 속도는 2.9배 빨라졌습니다.
다음 차트는 H3 VM을 사용하는 F1 RaceCar(140m) 벤치마크에서 Ansys Fluent 2022 R2의 강력한 확장 동작을 보여줍니다. 노드 2개에서 16개로 확장할 수 있으며 노드 16개(코어 1,408개)에서 병렬 효율성이 90%를 초과합니다.
Google Cloud는 CAE 워크로드 실행에 다음을 포함한 여러 가지 이점을 제공합니다.
Google Cloud의 HPC 인프라는 CAE 워크로드에 고성능을 제공하도록 설계되었습니다. 최신 CPU와 GPU를 사용할 수 있으며 짧은 지연 시간을 제공하도록 네트워킹 인프라가 설계되었습니다.
확장성
Google Cloud의 HPC 인프라는 확장 가능하도록 설계되었습니다. CAE 워크로드는 필요에 따라 확장 또는 축소할 수 있으며 리소스를 빠르고 쉽게 추가하거나 삭제할 수 있습니다.
유연성
Google Cloud의 HPC 인프라는 유연하게 설계되었습니다. CAE 워크로드는 다양한 컴퓨팅 옵션에서 실행할 수 있으며 다양한 스토리지 옵션을 사용할 수 있습니다.
사용 편의성
Google Cloud의 HPC 인프라는 사용하기 쉽게 설계되었습니다. Cloud HPC Toolkit은 Google Cloud에서 CAE 워크로드를 최적화하는 데 사용할 수 있는 도구 및 라이브러리 모음을 제공합니다.
비용 효과
Google Cloud의 HPC 인프라는 비용 효율적으로 설계되었습니다. 다양한 가격 책정 옵션이 제공되며 스팟 VM을 사용해 비용을 절감할 수 있습니다.
Google Cloud는 각각 CPU, GPU, 메모리 구성이 다른 다양한 머신 유형을 제공합니다. 워크로드에 적합한 머신 유형을 선택하면 성능과 비용에 상당한 영향을 미칠 수 있습니다. 예를 들어 H3 VM은 코어당 메모리 대역폭 비율이 높고 H3 VM은 코어당 4GB의 높은 메모리로 다양한 워크로드를 위한 충분한 메모리를 제공하기 때문에 코어당 라이선스 CAE 애플리케이션에 적합합니다. 구조 메커니즘과 같이 특히 메모리를 많이 소비하는 워크로드의 경우, 고성능 메모리 구성의 C3 VM은 코어당 16GB를 제공합니다.
Google Cloud는 성능과 비용 특성이 각기 다른 다양한 스토리지 옵션을 제공합니다. 워크로드에 적합한 스토리지 옵션을 선택하면 성능과 비용이 상당한 영향을 받을 수 있습니다. 또한 HPC 환경에는 고려해야 할 여러 가지 유형의 스토리지가 있습니다.
일반적인 HPC 환경은 요구사항이 서로 다른 최소 두 가지 유형의 스토리지(홈 스토리지 및 스크래치 스토리지)를 호스팅합니다. 각 스토리지 유형은 HPC 워크로드의 특정 니즈에 맞게 선택됩니다. 예를 들어 대량의 스크래치 데이터를 생성하는 워크로드에 고성능 스크래치 스토리지 솔루션이 필요할 수 있고 여러 컴퓨팅 노드의 공통 데이터에 동시에 액세스하는 워크로드에는 병렬 파일 시스템이 필요할 수 있습니다. 특정 HPC 워크로드의 스토리지 유형은 워크로드의 특정 니즈에 맞게 선택됩니다.
HPC 환경은 홈 스토리지와 스크래치 스토리지 외에도 자주 액세스하지 않는 데이터를 저장하는 데 사용되는 아카이브 스토리지와 같은 다른 유형의 스토리지를 사용할 수도 있습니다. Cloud Storage에서 가장 비용 효율적으로 아카이브 스토리지를 제공할 수 있습니다.
홈 스토리지
홈 스토리지는 일반적으로 공유 사용자 파일을 주로 '/home' 디렉터리(예: 구성, 스크립트, 후처리 데이터)에 저장하는 데 사용됩니다. 이 스토리지는 이 네임스페이스에 대한 공통 액세스가 허용되도록 클러스터 전체에서 같은 위치에 마운트됩니다. 홈 스토리지는 일반적으로 영구적입니다. 홈 스토리지는 일반적으로 NFS 프로토콜을 기반으로 합니다.
Google Cloud HPC 환경에서는 Filestore와 같은 Google 서비스나 NetApp과 같은 파트너 제품을 통해 홈 스토리지를 제공할 수 있습니다.
스크래치 스토리지
스크래치 스토리지는 일반적으로 중간 결과 및 시뮬레이션 출력 데이터와 같은 임시 파일을 저장하는 데 사용됩니다. 이러한 스토리지는 HPC 환경의 서로 다른 노드에서 공유되거나 공유되지 않을 수 있습니다. 스크래치 스토리지는 일반적으로 영구적이지 않습니다. 스크래치 스토리지는 일반적으로 로컬 플래시 스토리지 또는 병렬 파일 시스템과 같은 홈 스토리지보다 고성능 스토리지 시스템에 구축됩니다.
Google Cloud HPC 환경에서는 Persistent Disk, 로컬 SSD, Cloud Filestore 또는 Parallelstore와 같은 Google 서비스에서 또는 NetApp, DDN EXAScaler, Sycomp, Weka와 같은 파트너 서비스에서 스크래치 스토리지를 제공할 수 있습니다.
스팟 VM
스팟 VM은 CAE 워크로드를 실행하는 경제적인 방법일 수 있습니다. 스팟 VM은 할인된 가격으로 제공되지만 알림이 짧게 공지된 후 언제든지 종료될 수 있습니다. 스팟 VM은 최대 91%까지 할인된 표준 인스턴스 비용으로 사용 가능하며 GPU, 로컬 SSD를 포함하여 HPC 사용자가 원하는 다양한 기능을 지원합니다.
워크플로가 중단(선점) 가능성을 감수할 수 있다면 애플리케이션을 비교적 짧은 시간(4시간 미만) 내에 실행할 수 있는 경우 스팟 모델을 테스트하는 것이 좋습니다. 고객은 주문형에 비해 최대 90%의 비용을 절감하여 소규모 중단을 감내할 수 있다는 것을 발견했습니다.
H3와 같은 특정 VM 유형에서는 Spot을 지원하지 않습니다.
AirShaper는 디자이너와 엔지니어가 완전히 자동화된 방식으로 기류 시뮬레이션을 실행할 수 있는 온라인 공기역학 플랫폼이며 이 플랫폼을 사용하면 공기역학에 대한 전문 지식이 없는 사용자도 신뢰할 수 있는 결과를 얻고 설계를 개선할 수 있습니다.
AirShaper는 HPC Computational Fluid Dynamics(CFD) 워크로드를 오래된 VM 플랫폼에서 새로운 C2D VM 제품군으로 마이그레이션하여 이전 클라우드 환경에 비해 워크로드 실행당 시뮬레이션 시간과 비용을 절감했으며, 온프레미스 환경과 비교했을 때 결과를 얻는 속도가 크게 개선되었습니다.
“AirShaper는 고정 비용으로 CFD 시뮬레이션을 제공합니다. 코어가 증가하고 빠를수록 확장 문제 등으로 인해 전체 비용이 상승하기 마련입니다. 하지만 H3를 사용하면 전체 비용을 낮추면서도 시뮬레이션 시간을 절반으로 단축할 수 있습니다."
- 우터 레메리, Airshaper CEO
거의 50%에 달하는 비용 절감 | 온프렘 인스턴스와 비교 시 시뮬레이션 시간을 3배 넘게 줄일 수 있었습니다. | 이전 세대의 고성능 컴퓨팅 인스턴스에 비해 시뮬레이션 시간이 30% 단축되었습니다. |
거의 50%에 달하는 비용 절감
온프렘 인스턴스와 비교 시 시뮬레이션 시간을 3배 넘게 줄일 수 있었습니다.
이전 세대의 고성능 컴퓨팅 인스턴스에 비해 시뮬레이션 시간이 30% 단축되었습니다.
Altair는 제품 개발, 고성능 컴퓨팅(HPC), 데이터 분석 분야에서 소프트웨어와 클라우드 솔루션을 제공하는 글로벌 기술 기업입니다. 자동차, 항공 우주, 제조, 에너지를 포함한 다양한 산업에서 복잡한 문제를 해결하려는 엔지니어, 과학자, 데이터 분석가가 Altair 소프트웨어를 사용하고 있습니다.
Altair는 Google Cloud 파트너이며 Google Cloud에서 이 회사의 소프트웨어를 사용할 수 있습니다. Altair 소프트웨어는 Google Cloud에 최적화되어 있으며 Google Cloud의 성능, 확장성, 유연성을 활용하는 데 사용될 수 있습니다. Altair는 고객이 HPC 목표를 달성하도록 헌신하고 있으며 다양한 HPC용 소프트웨어 솔루션을 제공합니다. 그 중 하나가 유한 요소 분석 도구인 Radioss입니다. Altair는 새로운 H3 VM을 사용하여 Radioss의 클라우드 기반 런타임을 크게 향상시킨다는 점을 보여줄 수 있게 되었습니다.
"Altair는 H3의 Radioss 워크로드 시뮬레이션 런타임이 C2에 비해 최대 3배 줄어든 것으로 확인된 초기 테스트 결과에 고무되었습니다. Google Cloud에서 런타임이 크게 단축된 것은 공동 고객을 위한 엔지니어링 생산성 증대에 도움이 될 것입니다.”
- 에릭 르퀴니우, Radioss Development 및 Altair Solver 수석 부사장
TotalCAE는 엔지니어링 및 과학 애플리케이션을 위한 관리형 HPC 솔루션을 제공하는 선도적인 제공업체입니다. TotalCAE 솔루션은 사용하기 쉽게 설계되었으며, 고객이 결과를 빨리 얻고 비용을 절감하며 생산성을 향상시키는 데 도움이 됩니다. 전 세계 고객이 TotalCAE 솔루션을 사용하여 복잡한 엔지니어링 및 과학 문제를 해결하고 있습니다. 예를 들어 TotalCAE의 솔루션은 항공기, 자동차, 기타 차량의 설계 및 시뮬레이션에 사용되며, 건물과 교량의 성능을 분석하고, 신약과 치료법을 개발하는 데 사용됩니다.
TotalCAE는 Google Cloud 파트너로, 해당 솔루션은 Google Cloud에서의 운영을 지원합니다. TotalCAE 솔루션은 Google Cloud에 최적화되어 있으며 Google Cloud의 성능, 확장성, 유연성을 활용하는 데 사용될 수 있습니다. TotalCAE는 Google Cloud의 HPC 인프라를 사용함으로써 고객에게 저렴한 비용으로 더욱 우수한 성능을 제공할 수 있게 되었습니다.
“Google Cloud H3 인스턴스를 사용한 결과 C2에 비해 50% 저렴한 작업 비용으로 CAE 워크로드에서 코어당 최대 25%의 성능이 향상되었습니다. 덕분에 TotalCAE는 고객에게 Google Cloud의 CAE 워크로드에 대해 최대 2.5배 더 높은 가성비와 확장성을 제공할 수 있게 되었습니다.”
- 로드니 마크, TotalCAE CEO
Google Cloud의 HPC 및 CAE 워크로드에 대해 더 자세히 알아볼 수 있습니다. Google HPC 팀원과 상담하고 싶거나 Google Cloud를 사용하고 싶으면 Google에 문의하세요. 그때까지 모든 Google 리소스를 활용하여 계속 학습하세요.