TPU Trillium으로 GPU 대신할 안정적인 AI 모델 학습 컴퓨팅 자원 확보
JAX AI Stack 이용해 단기간 내에 기존 모델 뛰어넘는 모델 완성
TPU의 지속적인 버전 업데이트로 지속적인 성능 향상 기대
카카오는 TPU Trillium으로 자체 개발 AI 모델 ‘카나나’의 언어모델을 구축했습니다. 카카오는 TPU를 통해 안정적인 시스템 자원을 확보할 수 있었고, 높은 안정성과 학습 효율성도 경험했습니다. 이를 통해 24.6B 파라미터 규모의 뛰어난 모델을 구축하며 막대한 규모의 AI가 중심이 되는 차세대 서비스들에 대해 확신을 가질 수 있게 됐습니다.
생성형 AI는 이제 하나의 중요한 흐름이고, 시장은 어떤 모델을 통해 서비스를 고도화할 지의 단계로 접어들고 있습니다. 카카오는 이미 다양한 서비스에 인공지능을 연결하고 있습니다. 카카오는 서비스의 종류와 규모가 크기도 하지만 무엇보다 기술을 중심으로 성장해 온 기업입니다. 특히 인공지능에 대해서는 일찍부터 준비를 해 왔고 경험도 풍부합니다.
카카오는 자체 AI 모델 ‘카나나’를 한국어 특화 고성능 언어 모델로 완성하고자 합니다.이를 위해서는 효과적인 모델의 개발과 함께 막대한 학습과 추론을 처리할 수 있는 컴퓨팅 성능이 필요했습니다.
“카카오가 추구하는 언어 모델은 텍스트를 넘어 다양한 형태의 커뮤니케이션을 아우르고, 금융, 내비게이션 등 카카오 생태계 안에서 확장되는 경험을 더 고도화하고자 했습니다. 효율성, 성능, 유연성 등을 모두 만족시킬 수 있는 기술적 요소들이 필요했습니다.”
카카오는 구글 클라우드와 TPU 트릴리움을 통해 강력한 인프라를 확보하고 JAX 프레임워크를 바탕으로 다양한 형태의 인공지능 모델을 개발해 카카오의 세부 서비스에 다양하게 적용할 수 있는 기술적 기반을 다졌습니다.
생성형 AI, 그 중에서도 언어를 맡는 대규모 언어 모델(Large Language Model, LLM)은 카카오가 오랫동안 공을 들여 온 분야입니다. 한국어에 특화된 대형 언어모델을 오픈소스로 공개해 온 카카오는 2024년 새로운 자체 AI 모델 ‘카나나’의 라인업을 발표했습니다.다양한 크기와 역할을 갖는 모델이 계속 더해지고, 이를 통해서 기존의 카카오 서비스들이 한 단계 올라서는 밑바탕이 되는 환경입니다. 그리고 카나나의 배경에는 구글 클라우드의 TPU가 함께 하고 있습니다. 카카오는 카나나 언어 모델의 개발과 학습 과정에서 TPU를 이용해 왔고. TPU Trillium으로 업그레이드하면서 학습 성능을 크게 끌어 올렸습니다.
“현재 카카오의 대규모 언어 모델은 모두 TPU Trillium으로 학습되고 있습니다. GPU는 익숙하고, 다양한 접근이 가능하긴 하지만 필요한 만큼의 성능을 확보하는 데에 근본적인 어려움이 이어졌습니다. 구글 클라우드의 TPU는 언제든 필요한 만큼 자원을 할당받을 수 있었고 성능이나 모델의 확장도 손쉬웠습니다.”
카나나 LLM 모델의 초기에는 GPU를 중심으로 설계가 이뤄졌습니다. 클라우드 뿐 아니라 카카오 내부의 온프레미스 GPU 환경도 있기는 했지만 원하는 만큼의 자원을 상시 확보하는 과정이 쉽지 않았다는 것이 안재현 AI엔지니어의 설명입니다.
기존 모델 개발 시점부터 TPU를 이용해 모델을 운영해 온 경험이 있기 때문에 늘어나는 카나나 LLM 학습에 TPU를 검토했습니다. TPU는 수 백, 수 천 개의 프로세서 코어가 유기적으로 맞물려 텐서플로 프레임워크를 재빠르게 처리할 수 있습니다. 계약과 함께 필요한 만큼의 코어를 갖춘 시스템이 할당되기 때문에 안정적인 자원을 바탕으로 효과적인 학습 환경을 구축했습니다.
안재현
카카오 AI 엔지니어
GPU는 학습 과정에서 가장 고민되는 부분입니다. 필요할 때 적절한 컴퓨팅 자원이 필요했기 때문에 카카오도 사내에 GPU를 넉넉하게 확보했습니다. 하지만 카카오도 전사적으로 AI에 대한 수요가 늘어나면서 많은 부서가 GPU를 필요로 하게 됐습니다. 카나나는 더 큰 데이터 학습이 필요했고, 점점 부담스러워지는 GPU 확보는 늘 답답함을 안겼습니다.
“기존의 GPU 기반 인프라는 늘 전력 및 예산의 한계를 안고 있었습니다. 이를 해소하는 방법은 다시 더 많은 GPU를 확보하거나, 효율성이 더 높은 새로운 환경으로 전환하는 것이었습니다. TPU는 가장 효과적인 환경이지만 새로운 소프트웨어 개발 환경을 도입해야 한다는 걱정이 있었습니다.”
안재현 AI 엔지니어는 카나나의 LLM 학습량이 늘어나면서 TPU 전환은 자연스럽게 결정됐다고 말했습니다. 단기적으로는 기존 CUDA 기반의 프레임워크를 내려놓고 JAX로 스택을 구성하기 위해 새로운 개발 환경을 공부해야 했지만 길게 보면 비용에 비해 훨씬 높은 컴퓨팅 성능을 얻을 수 있는 필수적인 투자라고 판단한 것입니다.
TPU는 수 백, 수 천 개의 프로세서 코어가 유기적으로 맞물려 텐서플로 프레임워크를 재빠르게 처리하도록 설계되어 있습니다. 무엇보다 필요한 만큼의 코어를 갖춘 시스템이 할당되기 때문에 학습에 필요한 컴퓨팅 환경을 안정적으로 확보할 수 있습니다.
카카오는 기존의 TPU 기반의 모델 개발 경험을 토대로 언어 모델의 학습에서 TPU를 다루는 방법을 잘 알고 있었고, 그 사이에 업그레이드된 TPU v5e를 비롯해 TPU Trillium을 통해 더 강력한 LLM 학습 환경을 기대할 수 있었습니다.
LLM 모델의 학습 과정에서는 자원의 확보 만큼이나 성능도 중요합니다. 인공지능 학습의 경우 병렬 처리량이 결과물에 영향을 끼치기 때문에 더 많은 프로세서가 연결될수록 더 많은 연산을 처리하고 그만큼 빠른 학습 결과를 얻을 수 있습니다. TPU는 거의 무제한에 가까운 스케일아웃 확장성을 제공했습니다. 처리량이 늘어나면서 카나나의 거대 모델들은 빠르게 원하는 수준의 학습이 이뤄졌습니다.
“TPU의 매끄러운 확장성은 효율로 이어집니다. TPU는 모든 개별 코어가 모두 고속의 전용 패브릭으로 연결되기 때문에 스케일 아웃으로 코어 수를 늘리면 그에 비례해서 예측할 수 있는 만큼의 성능 향상을 기대할 수 있었습니다."
GPU는 수많은 프레임워크들이 오픈소스로 공유되면서 범용 환경으로 빠르게 성장하고 있습니다. 많은 데이터 연구자들이 이를 통해 익숙하게 원하는 결과물을 얻을 수 있기는 하지만 이를 대규모 서비스로 운영하려면 결국 규모에 대한 문제에 직면하는 경우도 생깁니다.
GPU는 보통 하나의 서버 안에 8개가 묶이는데, 이 시스템 안에서는 GPU가 늘어나는 만큼 성능 향상을 기대할 수 있지만 8개 단위의 시스템을 클러스터로 묶는 과정에서 분산처리에 대한 기술적인 차이에 따라 병목 현상이 이어집니다. GPU 8개가 꽂힌 시스템을 10대 연결한다고 해서 성능이 곧장 10배 높아지기는 어렵습니다.
TPU는 병렬 처리 구성 방법 자체가 완전히 다르기 때문에 고민 없이 코어 수에 비례해 성능 향상을 예측할 수 있었습니다. 또한 TPU Trillium은 수 천, 수 만 개 프로세서가 거의 성능 손실 없이 매끄럽게 확장됩니다. 기존 256개 프로세서가 묶인 V5e에 비해 훨씬 더 큰 규모의 연산이 가능했습니다. 확장성에 대한 고민과 실험 없이 바로 원하는 성능을 확보할 수 있게 되면서 모델 그 자체에 집중할 수 있던 것이 크게 와 닿았습니다.
류민호
카카오 AI 리서처
류민호 AI 리서처는 Trillium의 안정성도 높게 평가했습니다. GPU는 하나가 말썽을 일으키면 묶여 있는 시스템이 먹통이 되는 경우도 있는데 TPU의 패키지는 코어 한 두 개가 말썽을 부려도 전체 시스템에 영향을 끼치지 않습니다. 실제로 구글 클라우드의 안정성 만큼이나 TPU도 신뢰도가 높기 때문에 안정성에 대한 걱정, 기술적 고민 없이 AI 연구원들이 프로젝트에만 집중할 수 있었다고 합니다.
카카오는 TPU로 효과적인 학습 환경을 갖추면서 공격적으로 모델의 성능을 높이는 방법을 떠올렸습니다. 기존 모델의 레이어를 더 많이 쌓아 올려 모델 규모를 키우는 방법인 Depth Upscaling(DUS) 방식을 반복적으로 적용했습니다. 류민호 AI 리서처는 덕분에 확보한 시스템 자원보다 훨씬 더 큰 모델을 효과적으로 학습시킬 수 있었다고 말합니다.
“핵심 파이프라인이 검증된 뒤, 강력한 성능을 유지하면서도 추론 효율을 높이기 위해 MoE(Mixture-of-Experts) 모델을 통해 더 진보된 아키텍처 실험을 시작했습니다. 기존 21억 파라미터의 밀집 모델을 134억 파라미터 규모의 MoE 아키텍처로 업사이클링하고 MaxText를 통해 학습했습니다. JAX 스택은 스케줄 결합과 코드 커스터마이징 등 개발의 번거로움을 최소화하면서도 코드와 수학 벤치마크 등에서 큰 성과를 확인해 주었습니다.”
JAX 스택은 고급 모델 개발에서 기대 이상의 성능을 보여주었고, 특정 전문 도메인에 특화도 매끄럽게 이뤄질 수 있다는 가능성을 보여주었습니다. 그 덕분에 카카오는 24.6B 파라미터 규모의 모델을 빠르게 완성해 Gemma-2-27B 등 잘 알려진 모델들과 어깨를 나란히 할 만한 성능을 얻을 수 있었습니다. 여기에 카나나는 한국어와 한국 문화에 대한 부분에서는 월등하게 뛰어난 결과를 보여주기도 했습니다.
TPU의 시스템적인 만족도는 높지만 AI 개발자와 연구원들의 고민이 한 가지 있습니다. 개발 프레임워크입니다. GPU는 모든 AI 연구자들이 처음 접하는 순간부터 다뤄서 모든 환경이 익숙합니다. 또한 크고 작은 문제들이 오픈소스를 통해 빠르게 해결되고 발전도 이뤄집니다. 사례와 답이 많고 접근이 수월하다는 이야기입니다. 반면 TPU는 아직 대중적인 환경은 아니기 때문에 접근부터 교육, 활용의 경험이 많지 않습니다.
또한 GPU에서 그 성능이 검증된 모델과 프레임워크들이 TPU에서 그대로 작동하지 않는 경우가 많습니다. 카카오도 TPU를 오랫동안 써 왔지만 기존에 준비하던 메가트론 LM 기반의 프레임워크로 데이터 전처리부터 학습까지 자리를 잡은 모델의 환경을 TPU 환경으로 이전하는 것은 고민스러운 일이었습니다.
“TPU 기반의 JAX 스택은 LLM 개발을 위해 견고하고 효율적인 환경을 제공해 주었습니다. 걱정했던 것과 달리 구글 클라우드에는 메가트론 LM을 비롯해 주요 프레임워크들에 대응되는 환경이 마련되어 있었고, 약간의 학습과 경험을 통해 어렵지 않게 원하는 환경을 구축할 수 있었습니다. 그 과정이 망설여지는 것은 사실이지만 그 수준을 넘어 서면 자원 확보와 처리 성능, 비용 등 모든 면에서 더 나은 학습 환경이 갖출 수 있습니다.
류민호 AI 리서처는 프레임워크의 전환 과정은 어렵지 않았고, TPU는 그 이상의 성능을 보여주어서 수월한 개발이 이뤄졌다고 말합니다. 많이 쓰는 모델들에 대해서는 곧바로 전환할 수 있는 프레임워크가 마련되어 있고 구글 클라우드의 기술지원을 통해 더 나은 환경을 빠르게 적용하면서 여느 오픈소스 프레임워크들과 다름없이 능숙하게 다룰 수 있게 됐다고 합니다.
카카오는 개발 단계에서부터 이용했던 TPU v5e를 몇 가지 파라미터 수정을 통해 TPU Trillium으로 간단히 세대 전환을 할 수 있던 것도 큰 이점으로 꼽았습니다. TPU Trillium은 모델 전반에서 즉각적으로 2.7배 높은 처리량을 보여주었고, 비용도 줄일 수 있어습니다.
카카오는 TPU와 JAX 생태계(MaxText, JAX, Flax 등)를 통해 대규모 언어 모델 개발에 필요한 성능, 확장성, 그리고 커스터마이징의 용이성을 모두 만족시키는 강력하고 유연한 환경을 확보했습니다. 이를 통해 카나나는 최신 기술을 더 빠르게 도입하고, 컴퓨팅 성능의 부담 없이 복잡한 연구 아이디어들을 빠르게 현실화해나갈 수 있게 됐습니다.
TPU 환경에 익숙해지면서 프레임워크에 대한 부담은 크게 줄었습니다. 구글 클라우드에는 지속적으로 다양한 프레임워크들이 추가되고, 기존 GPU 환경에서 하던 것과 거의 비슷한 기능들이 제공됩니다. TPU는 어려움이 아니라 익숙함의 차이라고 볼 수 있습니다.
류민호
카카오 AI 리서처
“더 만족스러웠던 것은 TPU 환경이 지속적으로 더 좋아진다는 점이었습니다. 지난해 발표된 TPU v5에 비해 2024년 공개된 TPU Trillium은 AI 가속기로서 훨씬 발전된 모습을 보여주었습니다. TPU Trillium은 칩당 성능이 4배 이상 빨라졌고, 칩당 HBM 용량은 16GB에서 32GB로 두 배 늘었고 대역폭도 두 배 넓어졌습니다. 더 높은 성능의 코어를 기존보다 더 많이 연결해서 쓸 수 있기 때문에 학습의 결과를 훨씬 빠르게 받아볼 수 있었습니다.”
TPU의 세대 전환 과정도 수월했습니다. TPU Trillium은 더 나은 성능 뿐 아니라 새로운 요소들을 많이 갖추었는데, 이를 다루는 입장에서는 바뀌는 부분에 대한 기술적 부담을 가질 필요가 없습니다. 모든 프레임워크도 v6e와 적절히 맞물려 업데이트되기 때문에 마치 PC의 CPU나 GPU를 갈아 끼우듯 매끄럽게 v5e 환경을 v6e로 이전할 수 있었습니다. 이는 앞으로도 부담 없이 새로운 세대의 기술을 받아들일 수 있다는 확신으로 이어집니다.
“계속해서 새 GPU가 나오면서 어렵게 확보한 시스템이 낡아가는 것에 대한 부담도 있었습니다. 비용적 손실인 셈입니다. TPU 역시 거의 매년 새 버전이 나오면서 성능이 크게 높아지는데, 기존 환경을 정리하는 부담 없이 곧바로 새 환경으로 이전할 수 있어서 전체 유지 비용 측면에서도 유리했습니다.”
안재현 AI 엔지니어는 TPU를 도입하면서 인공지능과 함께 가는 길에 대한 선택지가 늘었다고 말합니다. 인공지능의 발전에는 GPU뿐 아니라 여러 형태의 하드웨어가 함께 하고 있습니다. TPU는 또 하나의 새로운 방법입니다. 카카오는 이를 통해 카나나의 가능성을 확인하고 인공지능과 카카오의 서비스가 함께 나아갈 방향성을 잡을 수 있었습니다.
한국의 기술 대기업인 카카오는 매우 인기 있는 메신저 앱 카카오톡을 중심으로 성장했습니다. 메신저를 넘어 카카오는 디지털 결제(카카오 페이), 온라인 게임(카카오 게임즈), 차량 호출 서비스(카카오 T), 엔터테인먼트 및 웹툰(카카오 엔터테인먼트), 은행 서비스(카카오 뱅크) 등 다양한 서비스를 제공합니다. 카카오는 방대한 카카오톡 사용자 기반을 활용해 다양한 서비스를 확산시키며, 한국 기술 및 디지털 라이프스타일 분야에서 주요 기업으로 자리매김하고 있습니다.
산업 분야: IT 기술
위치: 대한민국
사용된 제품: TPU
Google Cloud 파트너 정보 — 메가존소프트
AI Native Company, 메가존소프트는 고객의 AI 및 클라우드 전환을 선도적으로 지원해 왔습니다. 축적된 기술 역량과 신뢰 기반의 파트너십을 통해 고객이 AI Native 기업으로 혁신하고 지속적으로 성장할 수 있도록 돕고 있습니다