콘텐츠로 이동하기
컴퓨팅

Google Cloud, 90% 무탄소 에너지로 운영되는 세계 최대 규모의 Cloud TPU v4 기반 일반 공개 ML 허브 출시

2022년 5월 31일
https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_1yzCm6v.max-2000x2000.jpg
Max Sapozhnikov

Product Manager, Cloud TPU

Sachin Gupta

Vice President & GM, Infrastructure, Google Cloud

Google Cloud 사용해 보기

$300의 무료 크레딧과 20개 이상의 항상 무료인 제품으로 Google Cloud 사용을 시작해보세요.

무료 체험

* 본 아티클의 원문은 2022년 5월 12일 Google Cloud 블로그(영문)에 게재되었습니다. 


Google 검색과 YouTube 같은 Google 제품에서 볼 수 있는 최첨단 기능은 커스텀 머신러닝(ML) 가속기인 Tensor Processing Unit(TPU)을 토대로 실현된 것입니다. 이 가속기를 Google Cloud 고객에게 Cloud TPU로 제공하고 있습니다. ML 역량, 성능, 확장성에 대한 고객 요구가 그 어느 때보다도 빠르게 증가하고 있습니다. 차세대 인공지능(AI)의 근본적인 발전을 위해 오늘 Google은 미리보기 버전의 Cloud TPU v4 포드 기반 Google Cloud 머신러닝 클러스터를 발표했습니다. 이는 세계에서 가장 빠르고 가장 효율적이며 지속 가능한 ML 인프라 허브 중 하나입니다.

Cloud TPU v4 포드 기반의 Google Cloud ML 클러스터를 사용하면 연구원과 개발자가 AI의 최전방에서 정교한 모델을 학습시킴으로써 혁신적인 대규모 자연어 처리(NLP), 추천 시스템, 컴퓨터 비전 알고리즘 등의 워크로드를 지원할 수 있습니다. 9 엑사플롭스급의 최고 집계 성능을 제공하는 Cloud TPU v4 포드 클러스터는 누적 컴퓨팅 성능 측면에서 세계 최대의 공공 활용 ML 허브이며 90%의 무탄소 에너지로 운영됩니다. 

"IT 의사 결정권자 2,000명을 대상으로 실시한 최근 설문조사에 따르면 부적절한 인프라 기능이 AI 프로젝트 실패의 근본 원인으로 작용하는 경우가 많은 것으로 나타났습니다. 목적에 맞게 빌드된 기업용 AI 인프라의 중요성이 커짐에 따라 Google은 오클라호마에서 9 엑사플롭스급의 집계 컴퓨팅 성능을 제공하는 새로운 머신러닝 클러스터를 출시했습니다. 90% 무탄소 에너지로 운영되는 것으로 보고된 세계 최대 규모의 일반 공개 ML 허브라고 생각합니다. 이는 지속 가능성을 염두에 두고 AI 인프라를 혁신하려는 Google의 지속적인 노력을 보여줍니다." - 맷 이스트우드, IDC 연구 부문 수석 부사장

가능성 확장

Google I/O 2021에서 Cloud TPU v4를 발표한 뒤 Google은 Cloud TPU v4 포드 사전 체험판을 Cohere, LG AI연구원, Meta AI, Salesforce Research를 포함한 주요 AI 연구팀 여러 곳에 제공했습니다. 연구팀은 체험판에 만족하며 그 장점으로서 빠른 상호 연결 및 최적화된 소프트웨어 스택을 통해 제공되는 TPU v4의 뛰어난 성능과 확장성, 새로운 TPU VM 아키텍처로 자체 대화형 개발 환경을 설정할 수 있는 능력, JAX, PyTorch 또는 TensorFlow를 아우르며 원하는 프레임워크를 사용할 수 있는 유연성을 꼽았습니다. 이러한 특성 덕분에 연구팀에서는 우수한 성능 및 탄소 효율성을 바탕으로 대규모 최첨단 ML 모델을 학습시키며 AI의 한계를 뛰어넘고 있습니다.

Cohere에서는 언어 생성, 분류, 검색을 위한 API를 포함한 최첨단 자연어 처리(NLP) 서비스를 구축합니다. 이러한 도구는 Cohere가 JAX를 사용하여 Cloud TPU로 처음부터 학습시키는 일련의 언어 모델을 기반으로 합니다. Cloud TPU v3 포드에서 Cloud TPU v4 포드로 전환한 결과, 초대형 모델의 학습 시간이 70% 개선되어 연구원들이 반복 작업을 빠르게 수행하고 고객에게 더 높은 품질의 결과를 제공할 수 있게 되었습니다. 탄소 발자국의 혁신적인 절감 또한 Cloud TPU v4 포드의 만족도를 높인 주요 요인이었습니다.

에이단 고메즈, Cohere CEO 겸 공동 설립자

LG AI연구원은 TPU v4가 상용화되기 전부터 전략적 연구 파트너로서 테스트에 참여해 3,000억 개 매개변수 규모의 초거대 AI인 LG EXAONE을 학습시켰습니다. 멀티모달 기능을 갖춘 LG EXAONE은 TPU v4와 6,000억 개 이상의 토큰 텍스트 코퍼스 및 2억 5,000만 개가 넘는 이미지로 구성된 방대한 데이터를 사용해 학습하여 커뮤니케이션, 생산성, 창의성 등의 측면에서 인간 전문가를 뛰어넘는 것을 목표로 하고 있습니다. TPU v4의 성능은 동급 최고의 컴퓨팅 아키텍처를 능가했을 뿐만 아니라 고객 중심 지원에서도 기대 이상이었습니다. Google과 협력하게 된 것을 매우 기쁘게 생각하며 더 나은 삶을 위해 AI를 발전시킨다는 궁극적인 비전을 달성할 수 있도록 전략적 파트너십을 굳건히 이어갈 것입니다.

배경훈 박사, LG AI연구원 원장

더 크고 혁신적인 모델을 수용하면서도 모델의 학습 속도를 높이는 것을 목표로 TPU v4 테스트를 수행하기 시작했습니다. PyTorch, XLA, TPU v4 기반 시스템 사용을 통해 컴퓨터 비전 연구의 한계를 뛰어넘을 수 있기를 기대합니다.

롱항 후, Meta AI 연구 과학자

TPU v4 사전 체험판을 사용한 덕분에 간단한 영어 프롬프트를 실행 가능한 코드로 전환하는 160억 개의 매개변수를 갖춘 자동 회귀 언어 모델인 CodeGen 프로젝트의 대화형 AI 프로그래밍에 혁신을 가져올 수 있었습니다. 학습 샘플 수에 비례하도록 모델 매개변수의 수를 조정하면 모델 성능이 뚜렷하게 향상된다는 경험적 관찰을 토대로 이 모델을 거대한 크기로 만들었습니다. 이러한 현상은 '눈금 바꿈 법칙'으로 알려져 있습니다. TPU v4는 이러한 유형의 수평 확장 ML 학습을 위한 탁월한 플랫폼으로서 다른 유사 AI 하드웨어 대안에 비해 상당한 성능상의 이점을 제공합니다.

에릭 네이캄프, Salesforce 연구 과학자

또한 TPU v4를 통해 Google 연구팀은 2개의 TPU v4 포드로 학습시켜 최근 출시한 PaLM(Pathways Language Model)을 포함하여 언어 이해, 컴퓨터 비전, 음성 인식 등 여러 분야에서 혁신을 이룰 수 있었습니다.

“고급 AI 하드웨어의 접근성을 높이기 위해 몇 년 전 TPU Research Cloud(TRC) 프로그램을 출범하여 전 세계 수천 명의 ML 연구원에게 TPU를 무료로 액세스할 수 있는 기회를 제공했습니다. 그 결과, 'AI를 사용한 페르시아어 시 쓰기'부터 '컴퓨터 비전 및 행동 유전학을 사용하여 수면과 운동으로 유발된 피로감의 구분'에 이르기까지 다양한 주제를 다룬 수백 편의 논문과 오픈소스 GitHub 라이브러리가 발표되었습니다. Cloud TPU v4 출시는 Google 연구팀과 TRC 프로그램 모두에게 중요한 이정표입니다. AI를 좋은 일에 사용하기 위해 전 세계 ML 개발자들과 오랜 시간 협업하게 된 것을 매우 기쁘게 생각합니다.” - 제프 딘, Google 연구 및 AI 부문 수석 부사장

지속 가능한 ML 혁신

이 모든 연구가 무탄소 에너지를 토대로 한다는 사실이 Google Cloud ML 클러스터의 가장 특별한 점 중 하나입니다. 지속 가능성을 위한 노력의 일환으로 Google은 2017년부터 데이터 센터 및 클라우드 리전의 연간 에너지 소비량을 100% 재생 에너지로 대체하고 있습니다. Google은 2030년까지 기업 전반에서 매일 매시간 무탄소 에너지(CFE)로 운영하는 것을  목표로 합니다. ML 클러스터가 구축된 Google 오클라호마 데이터 센터는 동일한 그리드 내에서 매시간 90% 무탄소 에너지로 운영하면서 이 목표를 향해 순조롭게 나아가고 있습니다.

직접적인 클린 에너지 공급 외에도 이 데이터 센터는 Power Usage Efficiency(PUE) 지수 1.10을 달성하며 세계에서 가장 에너지 효율적인 데이터 센터 중 한 곳이 되었습니다. 더불어 TPU v4 칩은 최대 전력에서 지원하는 최고 와트당 FLOPS 영역에서 TPU v3의 3배에 달하는 성능과 뛰어난 에너지 효율성을 제공합니다. 이렇게 우수한 클린 전력이 공급되는 데이터 센터에서 에너지 효율적인 ML관련 하드웨어를 운영하며 동시에 Cloud TPU v4는 3가지 주요 권장사항을 통하여 에너지 사용량 및 탄소 배출량을 현저하게 줄일 수 있는 방법을 제안합니다.

독보적인 확장성과 가격 대비 뛰어난 성능

최고의 ML팀과 협업하면서 지속 가능성 외에 확장성과 가격 대비 성능이 또 다른 두 가지 주요 쟁점이라는 사실을 확인했습니다. 오클라호마의 ML 클러스터는 모델 학습에 필요한 용량을 업계 최고 수준의 청정 클라우드에서 우수한 가격 대비 성능으로 제공합니다. Cloud TPU v4는 이러한 문제를 해결하는 데에 있어 중추적인 역할을 합니다.

  • 확장성: 각 Cloud TPU v4 Pod는 호스트별로 업계 최고의 초당 6테라비트(Tbps) 대역폭에 버금하는 초고속 상호 연결 네트워크를 통해 연결된 4,096개 칩으로 이루어져 있어 대규모 모델의 빠른 학습이 가능합니다.
  • 가격 대비 성능: 각 Cloud TPU v4 칩은 Cloud TPU v3보다 2.2배 높은 최고 FLOPS를 지원하며 달러당 최고 FLOPS는 1.4배 더 우수합니다. 또한 Cloud TPU v4는 수천 개의 칩을 통해 수직 확장되어 ML 모델 학습 시 매우 높은 FLOPS 사용률을 달성합니다. 시스템을 비교할 때 최고 FLOPS를 기준으로 사용하는 경우가 많지만, 실제로 모델 학습 효율성을 결정하는 것은 규모에 따른 지속적인 FLOPS입니다. Cloud TPU v4은 높은 네트워크 대역폭과 컴파일러 최적화 덕분에 다른 시스템보다 월등히 우수합니다. 따라서 이를 기반으로 FLOPS 사용률을 높이면 학습 시간이 짧아지고 비용 효율이 탁월해질 것입니다.  


    칩 특성

    Cloud TPU v3

    Cloud TPU v4

    칩당 최고 컴퓨팅

    123테라플롭(bf16)

    275테라플롭(bf16 또는 int8)

    HBM2 용량 및 대역폭

    32GiB, 900GB/초

    32GiB, 1,200GB/초

    측정된 최소/평균/최대 전력

    123/220/262W

    90/170/192W

    TPU Pod 크기

    칩 1,024개

    칩 4,096개

    상호 연결 토폴로지

    2D 토러스

    3D 토러스

    포드당 최고 컴퓨팅

    126페타플롭(bf16)

    1.1엑사플롭(bf16 또는 int8)

    포드당 올리듀스 대역폭

    340TB/초

    1.1PB/초

    포드당 바이섹션 대역폭

    6.4TB/초

    24TB/초

    표 1: Cloud TPU v4 Pod는 큰 발전을 이룬 FLOPS, 상호 연결, 에너지 효율성을 통해 최첨단 성능을 제공합니다.

4개의 칩(TPU VM 1개)부터 수천 개의 칩에 이르는 구성으로 Cloud TPU v4 Pod 슬라이스를 사용할 수 있습니다. 전체 포드보다 작은 이전 세대 TPU의 슬라이스에는 토러스 링크('랩어라운드 연결')가 없었지만 64개 이상의 칩으로 구성된 모든 Cloud TPU v4 Pod 슬라이스에는 3차원 모두에 토러스 링크가 있어 집합 통신 작업에 더 높은 대역폭을 제공합니다.

또한 Cloud TPU v4는 단일 기기에서 TPU v3의 16GiB에서 향상된 32GiB 메모리를 전부 사용하도록 지원하고, 최대 2배 더 빠른 임베딩 가속화를 제공하여 대규모 추천 모델 학습 성능을 개선해 줍니다.

가격 책정

Cloud TPU v4 Pod 액세스 권한은 평가(주문형), 선점형, 약정 사용 할인(CUD) 옵션으로 제공됩니다. 자세한 내용은 이 페이지를 참조하세요.

지금 시작하기

Google 서비스를 지원하는 최첨단 ML 인프라를 모든 사용자에게 제공하게 되어 기쁩니다. 커뮤니티에서 어떻게 Cloud TPU v4에 조합된 업계 최고의 확장성, 성능, 지속 가능성, 비용 효율성을 활용하여 가지고 올 차세대 ML 혁신이 매우 기대가 됩니다.


AI 워크로드에 Cloud TPU v4 Pod를 사용할 준비가 되셨나요? Google Cloud 계정 관리자에게 문의하거나 이 양식을 작성하세요.


오픈소스 ML 연구에 Cloud TPU를 이용해 보고 싶나요? TPU Research Cloud 프로그램을 확인하세요.

감사의 말씀

이번 출시가 가능하도록 도움을 주신 Cloud TPU 엔지니어링 및 제품팀에 감사의 말씀을 전합니다. 이 블로그 게시물을 위해 도움을 주신 소프트웨어 엔지니어인 제임스 브래드베리, 아웃바운드 제품 관리자인 바이바브 싱, 제품 관리자인 아루쉬 셀반에게도 감사의 말씀 전합니다 .

게시 위치