카카오브레인 : 막대한 클라우드 GPU 컴퓨팅 바탕으로 그림 그리는 인공지능 모델 구축

Kakaobrain Karlo B^DISCOVER에 대하여

카카오브레인은 AI의 요소 기술을 개발하는 기업입니다. 자연어 처리부터 이미지, 소리 등 다양한 분야의 인공지능 기반 기술을 개발중이고 최근에는 한국어 자연어 처리 모델 KoGPT와 초거대 멀티모달 AI minDALL-E를 발표하며 AI의 가치를 크게 발휘할 수 있는 가능성을 펼쳐 나가고 있습니다. 최근에는 그림 생성 AI인 'B^DISCOVER'를 내놓고 인공지능의 가능성을 높이고 있습니다.

산업 분야: 과학 기술
위치: 대한민국

어떤 어려움을 겪고 계신지 알려주세요. Google Cloud가 도와드리겠습니다.

문의하기

Megazone Soft에 대하여

메가존소프트는 2009년부터 Google Cloud와 함께 파트너 비즈니스를 하고 있으며 현재는 프리미어 파트너입니다. 또한, 아시아 1위 클라우드 서비스 관리 업체(MSP)로서 최다 클라우드 구축 경험을 보유하고 있으며, 고객의 클라우드 여정과 고객이 원하는 클라우드의 혁신을 실현할 수 있도록 체계적인 서비스를 제공하고 있습니다.

카카오브레인은 텍스트의 내용을 그림으로 그려내는 그림 생성 AI인 ‘칼로’를 개발하고, 이를 기반으로 스마트폰에서 인공지능 그림을 만들어주는 서비스'B^DISCOVER' 를 운영하고 있습니다. 카카오브레인은 정밀한 그림을 그려내는 모델을 학습시키기 위해 대규모로 묶을 수 있는 GPU 컴퓨팅 환경이 필요했습니다. 구글 컴퓨트 엔진의 GPU 인스턴스는 병목 현상 없이 막대한 GPU 자원을 묶어 개발 기간과 비용을 줄이면서도 더 나은 생성 AI 모델을 만들어 주었습니다.

구글 클라우드 사용 효과

  • 16개 고성능 GPU 단일 노드로 병목 현상 감소
  • AutoML로 생성 AI의 결과물 적합성 판단

클라우드 기반 안정적인 고성능 GPU 자원 확보 대용량 GPU 노드 구성 병목 현상 감소 AI 모델 학습 시간과 비용 절감

인공지능은 세상의 많은 것들을 바꾸어 놓고 있습니다. 몇 년 전만 해도 사람이 반복적으로 하는 단순한 일을 흉내내는 수준으로 그 가능성을 내비쳤다면 이제는 ‘인간의 영역’으로 꼽히는 창작까지 다양한 인공지능의 활동이 이어지고 있습니다. 다양한 인공지능 기술을 연구하고 개발하는 카카오브레인은 최근 그림을 그리는 생성 AI ‘칼로’를 직접 만들고 이를 이용한 서비스 ‘B^DISCOVER’도 내놓았습니다.

‘B^DISCOVER’는 안드로이드와 아이폰의 앱으로 서비스되고 있습니다. 머릿속에 떠오른 영감들을 텍스트로 상세하게 설명하면 주제와 분위기, 컬러 톤부터 화풍까지 맞추어서 적절한 그림을 그려 줍니다. 이 카카오브레인의 인공지능 모델은 그림에 대한 편견이 없기 때문에 전혀 상상하지 못했던 창의적인 내용을 거침없이 그려 냅니다.

하지만 GPU 자원을 확보하는 것 뿐 아니라 이를 효과적으로 묶는 것도 쉽지 않습니다. 연산 데이터를 관리하는 노드가 늘어날수록 서로 주고 받아야 하는 처리 데이터가 많아지는데, 노드가 늘어날수록 병목 현상이 일어나면서 GPU 인스턴스의 수가 늘어나는 것에 비해 성능이 비례해서 올라가지 않는 경우가 많습니다. 구글 클라우드의 GPU는 엔비디아의 A100 텐서 코어 GPU를 노드당 16개까지 묶어서 쓰기 때문에 노드를 넘나드는 병목 현상을 줄일 수 있다는 것이 백운혁 총괄의 설명입니다.

이렇게 컴퓨팅 효율이 늘어나면 더 많은 GPU를 묶을 수도 있고, 성능 손실도 줄어들기 때문에 비용 부담도 줄어듭니다. 카카오브레인은 고정적으로 학습에 할당한 GPU 인스턴스 외에도 필요에 따라서 동적으로 추가 GPU 인스턴스를 할당해서 데이터 학습 과정에서 원래 계획과 벗어난 여러가지 실험을 통해 원하는 결과 값을 빠르게 찾아갈 수 있었습니다. 결과적으로 이를 통해서 모델 개발 기간을 줄이면서도 더 강력한 결과물을 얻어낸 것입니다.

지금 이 순간에도 칼로의 모델은 계속 진화하고 있고, 코요 데이터셋의 규모도 계속 커집니다. 칼로는 완성된 모델이 아니라 지속적으로 기능을 새로 넣고, 또 개선해 나가고 있는 단계입니다. 이에 따라 필요한 자원은 계속해서 유동적으로 바뀌기 때문에 언제든 큰 학습이 필요한 순간에 넉넉한 GPU 자원을 확보하는 것이 필요합니다. 단순한 GPU 인스턴스의 수를 뛰어넘어 구조적으로 더 큰 자원을 고성능으로 구현할 수 있다는 점은 구글 클라우드가 초거대 데이터를 꾸준히 다루는 카카오브레인의 여러 프로젝트들에서 활용되는 이유이기도 합니다.

“구글 클라우드의 기술적인 편리함에 대한 믿음이 가장 컸지만 장기 계약에 따른 비용 절감 효과도 무시할 수 없었습니다. 결과적으로 온프레미스에 비해서 저렴한 비용에, 필요할 때 더 많은 리소스를 유연하게 쓸 수 있었고 글로벌 서비스에 대한 대비도 자연스럽게 이뤄졌습니다.”

현실적인 문제도 무시할 수 없습니다. 기본적으로 GPU 컴퓨팅은 그 비용이 높은 데다가 카카오브레인이 칼로를 개발하면서 활용하는 자원의 규모도 크다 보니 전체적인 인프라에 대한 부담도 늘 안고 있습니다. 카카오브레인은 안정적으로 자원을 공급받으면서 칼로 외 여러 프로젝트를 진행하기 위해서 구글클라우드의 파트너 메가존소프트와 함께 구글 클라우드와 장기적으로 계약을 했고, 그에 따라 비용도 크게 낮출 수 있었습니다.

칼로는 초거대 데이터 셋을 다루는 인공지능 모델이기 때문에 비용과 효율 측면에서 Google Tensor Processor(TPU)를 활용하는 것도 고민해볼 만 합니다. 이미 카카오브레인은 초거대 AI 언어 모델 ‘KoGPT’를 개발, 운영하면서 TPU를 활용해 효율을 크게 높인 경험이 있습니다. 하지만 칼로는 이미지와 텍스트를 연결하는 멀티 모달 데이터 셋을 다루기 때문에 정형화된 데이터보다 계속해서 다양한 형태의 정보들이 쌓이기 때문에 카카오브레인은 데이터 종류에 유연하게 대응할 수 있는 GPU 컴퓨팅에 집중했습니다.

막대한 데이터 학습한 그림 생성 인공지능

‘B^DISCOVER’가 그림을 그릴 수 있는 것은 카카오브레인이 직접 개발한 ‘칼로’ 인공지능 모델이 있기 때문입니다.카카오브레인은 RQ-Transformer 등 다양한 이미지 생성 모델을 연구 개발하였고 그러한 경험을 바탕으로 Karlo를 개발했습니다. 카카오브레인은 오랫동안 그림을 그리는 생성 AI를 연구해 왔는데, 초기에는 가장 잘 알려진 미국의 오픈AI가 공개한 DALL-E를 재현하는 데에서 시작했지만 모델을 고도화하고, 데이터 셋의 크기를 대폭 늘리면서 칼로는 독자적인 특성을 갖는 인공지능 모델로 진화했습니다.

‘B^DISCOVER’는 그림을 잘 그리기도 하지만 아이디어를 그림으로 풀어낼 수 있도록 사람들의 의사를 잘 읽어내는 데에도 초점을 맞췄습니다. 명령 프롬프트의 입력에 대한 자유도를 최대한으로 높여서 전문적인 묘사가 아니어도 그림을 만들어 내기 때문에 대중적으로 그림 생성 AI 기술을 더 가깝게 만들어 주었습니다.

“순간순간 떠오르는 영감이나 나의 소원, 오늘의 기분처럼 다소 막연하고 추상적인 아이디어들을 이미지로 발견하고 소장, 공유하는 것을 목표로 칼로를 개발해 왔습니다. B^DISCOVER를 통해 인공지능 기술이 사람들이 원하는 그림을 찾아주는 것을 넘어 그림을 만들면서 이미지 검색의 영역을 넓힐 수 있다는 가능성을 바라보고 있습니다.”

이미경 B^DISCOVER PO는 누구나 그림을 그려낼 수 있다고 말합니다. 그리고 그 중심에는 인공지능 기술이 있습니다. 카카오브레인과 구글은 인공지능 기술이 어려운 것이 아니라 사람과 더 잘 소통하고, 누구나 일상에서 쓸 수 있는 모두의 기술이 되도록 노력하고 있고, 칼로 역시 기본적으로 같은 방향성을 바라보고 있습니다.

칼로의 머신러닝 모델은 구글 클라우드를 통해서 학습되고 있습니다. 학습 데이터를 저장하고 관리하는 데에 Google Cloud Storage가 쓰이고, 학습에는 Google Compute Engine의 GPU Instance가 활용됐습니다. 이렇게 학습된 모델은 카카오브레인이 직접 구축한 자체 인프라 환경에서 데이터를 처리하고, 칼로가 그림을 그릴 수 있도록 하고 있습니다. 칼로 모델이 그림 그리는 방법을 배우고 고쳐 나가는 핵심 역량이 구글 클라우드에서 이뤄지는 것입니다.

“16개 GPU를 묶는 단일 노드, 클라우드 업계에서 유일”

카카오브레인이 구글 클라우드를 이용하는 가장 큰 이유는 머신러닝 모델 학습이 원활하게 이뤄질 수 있을 만큼 충분한 시스템 자원을 꼽을 수 있습니다. 인프라를 담당하는 카카오브레인 라지스케일팀의 백운혁 오픈리서치 총괄은 특히 GPU 노드를 강조했습니다.

“구글 클라우드의 GPU는 현재 클라우드 시장에서 유일하게 엔비디아의 A100 GPU 16개를 단일 노드로 이용할 수 있습니다. ‘A2 MegaGPU 16G Instance’라고 부르는데, 막대한 GPU 파워를 단일 노드로 운영하기 때문에 GPU의 개수가 늘어도 노드간 통신 병목 문제가 획기적으로 줄었습니다.”

GPU 컴퓨팅의 핵심은 병렬 컴퓨팅에 있습니다. 동시에 많은 데이터를 처리하기 위해서 많은 컴퓨팅 자원을 확보하고, 이를 원활하게 묶어내는 것입니다. 특히 칼로처럼 초거대 멀티모달(Multi-Modal) 데이터셋으로 반복 학습을 해야 하는 머신러닝 모델은 그 결과와 예민한 파라미터 조정을 위해 빠른 학습이 필요합니다.

하지만 GPU 자원을 확보하는 것 뿐 아니라 이를 효과적으로 묶는 것도 쉽지 않습니다. 연산 데이터를 관리하는 노드가 늘어날수록 서로 주고 받아야 하는 처리 데이터가 많아지는데, 노드가 늘어날수록 병목 현상이 일어나면서 GPU 인스턴스의 수가 늘어나는 것에 비해 성능이 비례해서 올라가지 않는 경우가 많습니다. 구글 클라우드의 GPU는 엔비디아의 A100 텐서 코어 GPU를 노드당 16개까지 묶어서 쓰기 때문에 노드를 넘나드는 병목 현상을 줄일 수 있다는 것이 백운혁 총괄의 설명입니다

이렇게 컴퓨팅 효율이 늘어나면 더 많은 GPU를 묶을 수도 있고, 성능 손실도 줄어들기 때문에 비용 부담도 줄어듭니다. 카카오브레인은 고정적으로 학습에 할당한 GPU 인스턴스 외에도 필요에 따라서 동적으로 추가 GPU 인스턴스를 할당해서 데이터 학습 과정에서 원래 계획과 벗어난 여러가지 실험을 통해 원하는 결과 값을 빠르게 찾아갈 수 있었습니다. 결과적으로 이를 통해서 모델 개발 기간을 줄이면서도 더 강력한 결과물을 얻어낸 것입니다.

지금 이 순간에도 칼로의 모델은 계속 진화하고 있고, 코요 데이터셋의 규모도 계속 커집니다. 칼로는 완성된 모델이 아니라 지속적으로 기능을 새로 넣고, 또 개선해 나가고 있는 단계입니다. 이에 따라 필요한 자원은 계속해서 유동적으로 바뀌기 때문에 언제든 큰 학습이 필요한 순간에 넉넉한 GPU 자원을 확보하는 것이 필요합니다. 단순한 GPU 인스턴스의 수를 뛰어넘어 구조적으로 더 큰 자원을 고성능으로 구현할 수 있다는 점은 구글 클라우드가 초거대 데이터를 꾸준히 다루는 카카오브레인의 여러 프로젝트들에서 활용되는 이유이기도 합니다.

“구글 클라우드의 기술적인 편리함에 대한 믿음이 가장 컸지만 장기 계약에 따른 비용 절감 효과도 무시할 수 없었습니다. 결과적으로 온프레미스에 비해서 저렴한 비용에, 필요할 때 더 많은 리소스를 유연하게 쓸 수 있었고 글로벌 서비스에 대한 대비도 자연스럽게 이뤄졌습니다.”

현실적인 문제도 무시할 수 없습니다. 기본적으로 GPU 컴퓨팅은 그 비용이 높은 데다가 카카오브레인이 칼로를 개발하면서 활용하는 자원의 규모도 크다 보니 전체적인 인프라에 대한 부담도 늘 안고 있습니다. 카카오브레인은 안정적으로 자원을 공급받으면서 칼로 외 여러 프로젝트를 진행하기 위해서 구글클라우드의 파트너 메가존소프트와 함께 구글 클라우드와 장기적으로 계약을 했고, 그에 따라 비용도 크게 낮출 수 있었습니다.

칼로는 초거대 데이터 셋을 다루는 인공지능 모델이기 때문에 비용과 효율 측면에서 'Google Tensor Process Unit(TPU)' 를 활용하는 것도 고민해볼 만 합니다. 이미 카카오브레인은 초거대 AI 언어 모델 ‘KoGPT’를 개발, 운영하면서 TPU를 활용해 효율을 크게 높인 경험이 있습니다. 하지만 칼로는 이미지와 텍스트를 연결하는 멀티 모달 데이터 셋을 다루기 때문에 정형화된 데이터보다 계속해서 다양한 형태의 정보들이 쌓이기 때문에 카카오브레인은 데이터 종류에 유연하게 대응할 수 있는 GPU 컴퓨팅에 집중했습니다.

“초거대 멀티 모달 AI를 기반으로 그림 생성 AI 모델을 만들기 위해서는 많은 데이터를 빠르게 학습할 수 있는 GPU 컴퓨팅 환경이 필요합니다. 구글 클라우드 플랫폼의 GPU는 현재 클라우드 시장에서 유일하게 엔비디아의 A100 GPU 16개를 단일 노드로 이용할 수 있어서 GPU를 많이 묶어도 병목 현상 없이 학습 속도를 높일 수 있었습니다.”

“구글 클라우드, 인공지능을 향한 긴 여정 함께하는 페이스 메이커”

칼로가 잘 그릴 수 있는 그림과 어려워하는 그림은 분명히 있기는 합니다. 하지만 인공지능 기술의 특성상 서비스를 지속적으로 개발하고 운영하는 지금 현재도 칼로의 한계점을 파악하기는 어렵습니다. 칼로가 딱 어떤 그림을 그릴 수 있도록 하겠다는 목표보다는 생성 AI에 대한 이해도를 높여가면서 칼로가 사람들의 의도를 더 잘 받아들이고 다양한 표현을 해낼 수 있도록 꾸준히 개선을 이어가고 있습니다. 이미경 PO는 구글이 그 과정에서 클라우드 인프라나 기술 그 이상의 가치를 함께 하는 파트너이자, 페이스 메이커라고 이야기합니다.

“구글과 함께 하며 얻은 팀원들의 인공지능 기술에 대한 다양한 가능성 확인이 칼로의 태생을 이끌었고, 구글 클라우드는 이를 현실로 만들어 주었습니다. 그리고 구글 플레이를 통해 B^DISCOVER가 전 세계 이용자들을 만나고 있습니다. 구글은 칼로의 선행 연구부터 과정, 그리고 그 결과물인 B^DISCOVER의 서비스까지 카카오브레인이 걷고 있는 생성 AI 여정의 페이스 메이커입니다.”

카카오브레인의 목적은 당장의 서비스를 통한 성장이 아닙니다. 2017년 처음 회사가 세워졌을 때부터 목표는 카카오 공동체가 3년 뒤에 집중해야 하는 미래의 기술들을 미리 미래에 가서 찾는 것이었습니다. 카카오의 본질은 플랫폼이지만 이 플랫폼이 유지되려면 기술에 대한 리더십을 가져야 한다는 설명입니다.

단순히 카카오 내에서 필요한 기술들의 공급이 아니라 지금은 미래의 가장 중요한 먹거리인 AI에 집중하고, 온전히 인공지능 기술 그 자체로 세상을 바꿀 수 있는 과감한 시도들을 이어가고 있습니다. 그 과정에서는 인공지능이 지켜야 할 부분들에 대한 고민도 섞여 있습니다.

이 부분에서 구글 클라우드의 Vision API가 칼로를 돕습니다. 칼로는 그림에 대해서 무한한 가능성을 갖고 있지만 한편으로는 어떤 그림을 그려낼 지 아무도 알 수 없습니다. 때로는 사회적으로 받아들여지지 않는 그림을 보여주기도 합니다. 인공지능도 결국 우리와 더불어 지내야 의미를 갖기 때문에 적절하지 않은 그림은 골라낼 필요가 있습니다. Vision API는 칼로가 그려낸 그림의 맥락을 읽어 사람들에게 불편함을 줄 수 있는 내용의 그림은 숨겨 줍니다.

Vision API는 사람이 골라내는 것보다 빠르게 실시간으로 이용자들에게 이미지를 꺼내 놓기 전에 미리 적합성에 대한 여부를 파악할 수 있습니다. 더 나아가서는 이 이미지들을 반복적으로 검수해야 하는 사람의 피로도 없기 때문에 더 건강하게 생성 AI의 가능성을 펼칠 수 있는 프로세스로도 적합합니다.

“연구적으로는 더 높은 품질의 이미지 생성을 지속적으로 고민하고 있습니다. 더 나아가 칼로의 모델과 데이터 등 연구 결과들이 AI 커뮤니티에 기여할 수 있도록 꾸준히 노력을 이어 갈 계획입니다.”

이미경 PO는 지금 이 순간에도 칼로는 새로운 그림에 대한 데이터를 학습하면서 더 창의적이고 멋진 그림을 그려낼 준비를 하고 있다고 강조합니다. 칼로와 B^DISCOVER가 만들어가는 결과물들은 그 자체로도 의미가 있지만 많은 인공지능 기업들이 고민하고 있는 문제들을 풀고, 더 나은 인공지능 기술들이 세상에 도움을 줄 수 있도록 하는 과정으로서의 의미도 눈여겨 볼 부분입니다. 구글 클라우드는 단순히 컴퓨팅이 아니라 카카오브레인의 이 목표를 함께 가는 동반자로서의 역할을 해 나가고 있습니다.

어떤 어려움을 겪고 계신지 알려주세요. Google Cloud가 도와드리겠습니다.

문의하기

Kakaobrain Karlo B^DISCOVER에 대하여

카카오브레인은 AI의 요소 기술을 개발하는 기업입니다. 자연어 처리부터 이미지, 소리 등 다양한 분야의 인공지능 기반 기술을 개발중이고 최근에는 한국어 자연어 처리 모델 KoGPT와 초거대 멀티모달 AI minDALL-E를 발표하며 AI의 가치를 크게 발휘할 수 있는 가능성을 펼쳐 나가고 있습니다. 최근에는 그림 생성 AI인 'B^DISCOVER'를 내놓고 인공지능의 가능성을 높이고 있습니다.

산업 분야: 과학 기술
위치: 대한민국

Megazone Soft에 대하여

메가존소프트는 2009년부터 Google Cloud와 함께 파트너 비즈니스를 하고 있으며 현재는 프리미어 파트너입니다. 또한, 아시아 1위 클라우드 서비스 관리 업체(MSP)로서 최다 클라우드 구축 경험을 보유하고 있으며, 고객의 클라우드 여정과 고객이 원하는 클라우드의 혁신을 실현할 수 있도록 체계적인 서비스를 제공하고 있습니다.