캐럿은 Vertex AI를 통해 Imagen Veo, Gemini 등 다양한 생성형 AI 기반 멀티모달 콘텐츠 제작 에이전트를 개발했습니다. Vertex AI는 최적의 모델을 골라 고품질 콘텐츠를 만들 수 있는 밑바탕이 되었습니다.
요즘 소셜미디어나 유튜브 등 콘텐츠 플랫폼의 큰 흐름으로 짧은 영상이 꼽힙니다. 특히 생성형 AI로 만든 짧은 영상이나 이미지들은 머릿속으로만 생각하던 상상들을 눈 앞에 만들어주면서 큰 인기를 누리고 있습니다. 하지만 여전히 ‘어떻게 만들어야 하나?’라는 막막함이 남아 있긴 합니다. 패러닷의 생성형 AI 서비스 캐럿은 전문적인 콘텐츠 제작 경험이 없는 사람들도 몇 초짜리 숏폼 콘텐츠부터 제법 긴 광고 영상까지 직접 만들 수 있도록 돕는 것을 목표로 합니다.
캐럿의 주된 역할은 이미지, 일러스트 등 멀티모달 콘텐츠 제작의 전 과정을 이끄는 창작 에이전트입니다. 캐럿은 콘텐츠를 만들어내기 위해 구글 클라우드의 다양한 AI 서비스를 적극적으로 활용하고 있습니다. 이미지 생성을 위해 이마젠(Imagen), 영상 제작을 위해 비오3(Veo 3), 음악 생성을 위해 라일라(Lyria), 그리고 음성 생성을 위한 TTS(Text-to-Speech) 기술까지 모든 종류의 멀티모달 기술을 사용합니다. 이러한 모델들은 주로 버텍스 AI(Vertex AI) 플랫폼을 통해 통합적으로 활용하고 있으며, 제미나이(Gemini) 역시 버텍스 AI 내에서 통합하여 사용 중입니다.
Vertex AI를 바탕으로 여러 AI 서비스들을 운영합니다. Vertex AI의 인공지능 솔루션들은 아주 방대합니다. 이미지부터 영상, 텍스트, 음성까지 거의 모든 것들을 하나의 플랫폼 안에서 만들어낼 수 있다는 강점이 있습니다. 특히 Gemini를 비롯한 구글의 생성형 AI 기술은 최근 변화가 매일 느껴질 정도로 빠르게 발전하고 있어서 결과물에 대한 만족도가 높습니다.
장진욱
패러닷 대표
장진욱 패러닷 대표는 캐럿을 ‘개인 콘텐츠 제작 AI 에이전트 서비스’라고 설명합니다. 캐럿의 핵심은 이용자의 의도를 읽어서 적절한 생성형 AI 모델을 고르고, 효과적으로 일을 맡기는 데에 있습니다. 제미나이를 비롯한 언어 모델을 통해 이용자가 만들어내려는 콘텐츠 요청을 해석하고, 이를 바탕으로 제작 과정을 심층적으로 분석합니다. 캐럿은 여러가지 모델을 검토하고 전체적인 제작 계획을 세웁니다. 우리가 하나의 프로젝트를 할 때 해야 할 일의 목록을 만들고 각각을 진행하는 도구와 담당자를 결정하는 것과 닮아 있습니다.
캐럿은 해야 할 일을 판단하고, 여러 미니 에이전트들을 통해서 프로젝트를 하나씩 풀어갑니다. 캐럿은 Vertex AI로 작은 일을 맡는 에이전트들을 개발했습니다. Gemini나 Veo, Imagen 등의 생성형 AI도 미니 에이전트를 통해서 주어진 일을 처리합니다.
캐럿의 에이전트는 대화를 통해서 답을 만들어갑니다. ‘용암 먹방 영상을 만들어줘’라는 현실적이지 않은 입력에도 캐럿 에이전트는 적절한 미니 에이전트들을 결정하고 기본 콘셉트를 제안합니다. 인플루언서가 출연할지, 외계인이 등장할지, 아니면 직접 생각한 세부안이 있는지를 묻습니다. Gemini는 이 과정에서 가장 중요한 이용자의 의도를 읽어내고 콘셉트를 상상하는 데에 큰 역할을 합니다. 콘셉트가 결정되면 필요한 인물과 배경에 대한 정보를 결정하고, 추가 이미지를 요구하기도 합니다. 분위기와 조명, 그리고 영상의 질감 등 세부 요소까지 대화를 통해서 결정하고 난 뒤에는 영상 모델을 선택합니다.
현재 캐럿은 Veo 3와 Imagen 4를 비롯해 다양한 영상 및 이미지 생성 모델을 통해 AI 콘텐츠를 제작합니다. 이용자는 용도에 맞춰 적절한 모델을 선택하고 제작을 시작합니다. 생성형 AI의 성능이 좋아지면서 단순히 짧은 영상이나 이미지 하나를 만드는 일은 쉬워졌지만, 하나의 큰 주제를 완결성을 갖춘 콘텐츠로 제작하는 일은 여전히 어려운 문제입니다. 세밀한 프롬프트 입력이나 약간의 프로그래밍 지식이 도움이 되기는 하지만 기술이 콘텐츠 제작의 장벽이 되지 않도록 하는 것이 캐럿의 목표입니다. 캐럿은 프롬프트 입력은 물론이고 생성된 콘텐츠에 음악 및 더빙, 자막 추가, 컷 편집 등의 후반 작업까지 통합된 워크플로우를 통해 하나의 큰 콘텐츠를 완성하고자 합니다.
“Veo 3로 영상을 만들 때 의도를 잘 전달하려면 JSON 형식으로 프롬프트를 만드는 것이 효과적입니다. 하지만 일반 이용자들이 JSON 형식 구문을 만드는 것도 어렵고, Veo3가 잘 알아들을 수 있도록 요청하는 것은 더 어렵습니다. 이용자의 의도를 잘 읽어 JSON으로 만들어 Veo3에게 전달해주는 것이 캐럿의 역할입니다.”
캐럿의 에이전트는 결국 여러 모델을 이용해서 긴 영상을 만드는 것을 목표로 합니다. Veo 3는 현재 한 번에 8초 정도의 영상을 만들어 내기 때문에 이보다 긴 영상을 만들기 위해서는 여러 개의 클립을 생성해서 연결해야 하는데, 이 클립들이 매끄럽게 완결성을 갖추려면 일관된 흐름을 유지해야 합니다. 캐럿의 에이전트는 이를 파악해서 Veo 3에게 흐름에 맞는 영상 클립들을 주문합니다.
내부적으로 복잡한 과정을 거치긴 하지만 구글 클라우드를 이용하면서 영상의 제작 속도를 크게 끌어올릴 수 있었습니다. 기본적으로 Veo 3와 Imagen 4의 콘텐츠 생성 속도가 기대 이상으로 빨랐습니다. 무엇보다 에이전트를 이용해서 해야 할 일들을 병렬로 구성해도 구글 클라우드는 이를 매끄럽게 처리해 많은 결과물을 동시에 받을 수 있게 해 주어서 전체 제작 과정의 속도를 높일 수 있었습니다.
장진욱
패러닷 대표
에이전트는 복합적으로 작동하면서 다양한 콘셉트의 클립들을 만들어내고, 검토해서 최적의 결과를 골라냅니다. 기준을 충족하지 못하면 프롬프트를 수정해 가면서 다시 더 나은 결과를 생성하기도 합니다. 캐럿에는 여러가지 미니 에이전트들이 있기 때문에 이를 함께 이용해서 최적의 결과물을 이끌어 냅니다.
캐럿의 영상 제작 프로세스는 Gemini를 비롯한 언어 모델을 통해 목적을 명확히 한 뒤에 Veo3와 Imagen 등의 이미지 생성 모델을 운영하기 때문에 결과적으로는 속도와 비용을 크게 줄일 수 있습니다. 아직까지는 영상의 생성 비용은 비싼 편인데, Gemini를 비롯해 여러 언어 모델을 복합적으로 이용해 이용자의 정확한 의도를 파악하고 최적의 프롬프트를 만들어 내도록 워크플로우를 구성했습니다. 결과적으로 더 적은 시도로 더 나은 결과물을 만들어 낼 수 있게 됐습니다.
“Veo 3의 콘텐츠 생성 비용은 언어 모델처럼 저렴하지 않다는 반응이 있습니다.하지만 Veo 3는 출시 이후 지속적으로 업데이트가 이뤄지고 점점 비용 부담이 줄었습니다. 또한 복합적인 언어 모델로 제작 의도를 뚜렷이 전달하면 Veo 3는 그 의도에 맞는 결과물을 정확히 뽑아내기 때문에 무한정 콘텐츠 생성을 반복하는 것에 비해 작업 속도를 크게 높일 수 있었습니다.”
국내 한 통신 기업은 캐럿을 통해서 마케팅에 쓰이는 영상을 직접 만들었고, 한 방송사는 역사를 다룬 다큐멘터리 프로그램의 일부 자료를 만들어내기도 했습니다. 한 콘텐츠 크리에이터는 50일 동안 생성형 AI만을 이용해 영상을 만들어 일본 도쿄 시내의 대형 전광판에 전시하는 프로젝트를 진행하기도 했습니다. 캐럿을 통해 여러가지 모델을 적절히 조합해 생산성을 높였습니다.
“캐럿의 에이전트가 함께 일하는 동료가 되는 것을 목표로 하고 있습니다. 지금도 소상공인들이 비즈니스와 상품을 알리기 위해 영상 제작이나 웹 콘텐츠 디자인을 고민하고 있습니다. 하지만 실제 전문가들에게 일을 맡기는 것이 부담스러운 경우가 많습니다. 캐럿을 이용해 직접 알리고 싶은 내용들을 만들어낼 수 있는 AI 창작자 파트너를 둘 수 있다면 어떨까요.”
캐럿은 콘텐츠 생성 외에도 캐릭터 채팅 서비스를 함께 운영하고 있습니다. 대규모 언어 모델을 이용해 세계관과 캐릭터, 그리고 주제를 정해 대화하는 캐릭터 채팅은 요즘 가장 인기 있는 AI의 활용 분야이기도 합니다. 캐럿은 Gemini 2.5 Flash를 통해 대화를 구성합니다.
장진욱 대표는 캐릭터 채팅의 다른 역할을 기대하고 있습니다. 캐럿의 목표는 누구나 머릿속에 떠오른 아이디어에 완결성을 갖추어 콘텐츠로 완성시키는 데에 있습니다. 캐릭터 채팅은 하나의 이야기를 이끌어내는 방법으로, 직접 주인공이 되어 대화를 통해 웹 소설처럼 스토리를 풀어가도록 합니다. 이는 다시 이미지, 영상을 만드는 생성형 AI와 연결해 웹툰과 웹 애니메이션으로 이어질 수 있습니다.
생성형 AI의 강점은 제약 없는 창의성에 있지만 다른 한편으로는 적절하게 제어하지 못하면 기대와 다른 반응을 보이거나 때로는 부정적인 결과물을 만들어낼 수도 있습니다. 장진욱 대표는 버텍스 AI와 Gemini는 다양한 모델을 빠르게 경험하면서도 의도에 맞춰 상식적이고 안전한 창작물을 만들어주어서 가장 신뢰할 수 있는 서비스라고 강조했습니다.
Vertex AI는 안전한 AI를 만들어낼 수 있는 기술적 기반을 제공해 줍니다. 생성형 AI를 이용해 부적절한 콘텐츠가 만들어지지 않도록 특정 프롬프트를 제한할 수 있습니다. 하지만 이 필터를 통해서도 걸러지지 않는 경우가 생길 수 있기 때문에 결과물에 대해서도 철저한 검증이 이뤄집니다. 문제가 있다고 판단한 결과물은 이용자에게 직접 보여주지 않도록 걸러주기도 합니다.
장진욱
패러닷 대표
기존 콘텐츠의 저작권을 침해하는 사례도 사회적 문제로 떠오르고 있습니다. 구글 클라우드의 AI 도구로 생성된 결과물에는 눈에 보이지 않지만 지우지 못하는 워터마크가 새겨져 있어서 콘텐츠의 활용에 대해서도 지속적인 관리가 이뤄집니다. Vertex AI는 전반적으로 AI가 만들어내는 콘텐츠를 안전하게 관리할 수 있습니다.
장진욱 대표는 구글 클라우드의 AI 서비스들의 빠른 업데이트도 중요한 요소로 꼽았습니다. Vertex AI를 통해 업데이트되는 새로운 서비스들을 적절히 판단해서 캐럿에 적절하게 적용하는 것이 고민이 될 때도 있었지만 구글의 기술적인 지원을 통해 이를 기회로 받아들이고 있다는 설명입니다.
‘버텍스 AI를 비롯한 구글 클라우드의 AI 서비스가 쉴 새 없이 발전하고 있는 것을 매일 피부로 느끼고 있습니다. 처음에는 모델이 바뀔 때마다 변화를 캐럿에 적용하는 과정이 버거울 때도 있었습니다. 하지만 이제는 모델이 바뀌는 것을 전제 조건으로 서비스 구조를 만드는 경험이 생겼고, 구글 클라우드의 AI에 대한 신뢰도가 생기면서 새로운 모델의 업데이트는 주저하지 않고 바로 적용하고 있습니다.
캐럿은 늘 새로운 모델을 적극적으로 받아들이고, 캐럿과 어울릴 만한 AI 기술에 대해 구글과 머리를 맞대고 있습니다. 캐럿은 구글 클라우드를 통해 가장 빠르게 새로운 모델과 AI 트렌드를 접하면서 글로벌 시장에서 가장 높은 경쟁력을 가진 개인용 창작 파트너로 성장해 나가고 있습니다.